您所在的位置:首页 >威廉希尔 >威廉希尔注册 > 正文

威廉希尔亚洲官方网站

作者: 来源: 日期:2017/7/7 10:31:58  加入收藏 

    AI视频技术目前在无人驾驶、移动支付、安防监控、智慧医疗领域取得卓有成效的进展。在诸多行业的推广应用中,安防监控行业成为了国内AI视频技术率先落地的行业。海康威视和大华股份等龙头企业,占据智能安防监控入口优势,针对安防视频数据的海量增长,公司具有优化深度算法,为用户提供优质有效内容的核心。


    AI视频技术目前在无人驾驶、移动支付、安防监控、智慧医疗领域取得卓有成效的进展。在诸多行业的推广应用中,安防监控行业成为了国内AI视频技术率先落地的行业。

    

1 AI视频:计算机视觉+深度学习的最佳产物

AI视频指的是利用计算机视觉及深度学习、对视频内容进行理解,进而完成视频数据的结构化分析,以实现相关的目标检测和跟踪、人物识别、动作识别、情感语义分析等功能。

1.1信息传播媒介已从音频向视频方向推进

随着硬件摄像头的不断变革,以及通讯技术的持续进步,信息的传播方式已逐步从音频通讯向视频通讯演变。图像是人类感知世界的视觉基础,同时也是我们获取信息、表达信息和传递信息的重要手段。

1.2视频信息是AI的重要输入

而当下人工智能技术的发展历程,实际上是由数据、技术、产品三者不断循环推进的一个过程,用大量数据训练模型,以促进技术升级,进而形成产品,再通过产品的应用再次产生数据,进行学习并优化结果。

因此,视频作为现今人类接受外界信息最重要的媒介,视频的应用无疑是人工智能发展中重要一环。无论是知识表示、自动推理和搜索方法、自动程序设计、智能机器人、机器学习或知识获取,任何一个人工智能方向的发展,都不能离开视频在其中的应用。

1.3视频识别扩展了AI的想象空间

同时,人工智能的计算机视觉以及深度学习算法的突破,使机器在“看”这一认知能力上的加强,基于人工智能的视频分析技术在各个应用领域的空间巨大。

简单从安防领域来看,在很多经典的美国大片中,我们经常看到警察可以通过全国的交通及安防摄像头追踪疑犯的动向,从而迅速破案。但实际上,受于技术上的限制,现实生活中对视频内容的分析依然以人工为主,所以在新闻媒体中,常看到的是某地警察通过调取案发现场附近监控视频经过数小时的分析终于确定疑犯容貌,从而成功将其抓获归案的消息。

如果人工智能在视频识别、视频分析等方面取得重大突破,那么只需要输入一张照片做参照,即可让机器从一个地区数以千计的视频监控服务器中快速查找定位到相应目标,工作效率及准确度是人工分析根本无法比拟的。

在海内外科技巨头的人工智能发展蓝图中,均将对视频识别、感知及分析的相关研发放在了战略地位。扎克伯格在F8大会上,明确提出把发展人工智能技术用以理解视频内容作为Facebook未来的核心战略发展目标。人工智能在视频分析方面的突破,促使产生了众多具备良好想象空间的应用案例。

2 计算机视觉算法开源化,数据集成为应用关键

2.1计算机视觉技术:对质的分析

与以量的分析为主的机器视觉不同,计算机视觉主要处理的是对质的分析。常见的包含有分类识别、身份确认、行为分析等。形象来说,计算机视觉技术就是使摄像机能够代替人眼,进行对视频中的物体的识别、物体形状与方位的确认以及物体运动的判断三个行为。

1)物体的识别:即理解物体是什么。对物体的识别主要体现在两个方面,第一是将不同物体归类;第二是对同类物体进行区分与鉴别。物体识别要求既能抽象出物体的共同属性,又能识别出相似物体间的细微差别。

2)物体形状和方位的确认:判断物体的形状和方位是为了让物体在视觉的三维空间里得到记忆的重建,进而进行场景分析和判断。

3)物体运动的判断:和物体形状方位的确定一样,对物体运动的判断也是一种对场景的重建和理解,用于进行视觉主体(人或机器)对场景的分析,并据此做出自身行动的决策,实现视觉主题和场景的交互。

计算机视觉技术的进步,使机器能更敏锐的观察视频,进而抓取各个场景下所需的信息。

2.2底层算法开源化:GoogleVideoIntelligenceAPI

随着如谷歌等人工智能领域的巨头的算法纷纷开源,计算机视觉底层算法模型或将逐步走向统一。

在今年3月份的GoogleCloudNext’17大会上,斯坦福计算机视觉教授李飞飞开放了能进行视频识别的VideoIntelligenceAPI,并演示了一个应用样例;此外,谷歌云工程师SaraRobinson也在GitHub上公开了演示样例代码。

谷歌这次公开的VideoIntelligenceAPI主要有两个重要功能:

1)识别目标视频中每一帧的内容;

2)在庞大的视频库中搜索当前视频的元数据。

VideoIntelligenceAPI对视频进行全片分析,可以识别视频中每一帧的具体内容,同时提取出内容相关的颗粒数据(GranularData)。具体来说,就是模型不仅支持自动实时的识别视频中的物体,按场景化提供精确标签分类,及相关实体类别信息(如下图中的老虎,以及出现的相关“野生动物”、“老虎品种”等标签),分离信号与噪音;还可以进行全片的情景理解,识别出整段视频中所有出现该物体的数据帧(即能判定老虎在视频中出现的时间),并通过模型给出不同视频帧之间的联系和区别。

GooogleViedoIntelligenceAPI开放,意味着计算机视觉顶尖算法正在开源化,算法模型在逐步走向统一。在对于以数据和算法驱动的AI视频来看,未来训练数据集上的差异对计算机视觉解决方案的优劣影响权重增加

2.3数据集成为AI视频应用关键

底层算法逐渐开源,但具体用于各个应用场景的模型,需要大量的场景数据进行调优与完善,训练数据量越大,质量越好,训练得到的算法准确率高。因此,具有特征性的场景数据集的获得,是AI视频真正落地应用的关键。

2016年,谷歌发布了YouTube-8M,一个由自动标记的YouTube视频组成的数据集。2017年2月谷歌再次开放了Youtube视频数据集——Youtube边界框(YouTube-BoundingBoxes),这是一个在21万YouTube视频片段中进行密集的标注,由包含13类物体的共500万边界框(boundingboxes)组成的视频数据集。边界框是指在时间上连续的帧中跟踪对象的框,到目前为止,这是包含边界框的最大的人工标注视频数据集。

在各个应用场景中,安防行业是天然的数据源,具有繁多的数据种类、PB级的数据量等特征,非常适合进行AI视频算法训练。

3 AI视频落地应用场景

3.1安防监控

3.1.1安防监控:当AI视频处理解决方案成为刚需

在世界各国政府应对国内安定和国际反恐的措施中,AI视频技术成熟成为安防监视领域发展的迫切需求。日益增多的监控点位持续不断地产生海量视频数据,按原先的人工处理模式,负责安防监控的人员数量会根据监控点位的增长而增加,如果不考虑增设人员,现有的监控团队将无法保质保量地完成自身的工作职责。

因此,智能化的视频处理解决方案成为眼下迫切急需的产品。大数据技术、视频结构化的日益成熟使得AI视频在安防领域的应用存在了可能。数据结构化技术可从视频中提取既定物体,并通过物体识别技术认定物体身份并贴上对应的身份标签,并将处理信息汇总到后台数据库。用户可以通过搜索的方式对对应的信息进行查询和汇总。

目前AI视频技术在安防领域的应用已经实现从静态图片识别到动态影像跟踪捕捉的升级。AI视频技术的功能不仅在于完成静态影像的物体识别,更在于对动态视频的跟踪识别,并且基于视频影像动态变化的基础之上迅速反馈到处理系统,并产生对应的分析数据。

与传统视频监控系统对比,AI视频技术除却原有数据收集和整合功能之外,开始具备基于深度学习的智能视频分析能力(IntelligentVideoAnalysis,IVA)。IVA技术的发展使得计算机拥有可以辨别物体特征的视觉处理系统。在视觉处理系统的支持下,计算机在无需人力参与的状态下,对于摄像机提供的图像进行有效的定位、识别和跟踪。根据预先设定代码,计算机可以对行为人的轨迹行为进行有效判断,具备了除日常监控任务之外的突发事件处理能力。

AI视频分析平台的强大之处不仅在于可以精准计算在监控范围内的人群数据,更在于智能化地分析个体行为的轨迹踪迹,形成重点区域的面状布防。AI视频侧重于人群密度管控和个体行为分析,旨在通过优化的AI算法与框架模式实现对监控范围内物体行为的有效分析。与传统的视频分析软件不同,AI视频分析可以做到以下四大智能化功能:

第一,精准测算视野范围内人群数量,对于可疑人物进行行为轨迹追踪,在重大节日事件节点设置人群密度临界值,控制人流量;

第二,通过人脸识别技术与运动轨迹追踪发现可以特定人员,通过调拨警力和封锁道路实现人员追捕;

第三,特定区域实时管控,对于违规进入特定区域的人员进行预警,并有效进行实时报警;

第四,对视野范围内的人员进行分类识别,标识区分不同类型人群,对于特定人员的异常动作行为设定预警信号。

3.1.2微软推出全自动智能监控产品WorkplaceSafety

从国际领先的安防监控技术而言,微软公司在今年5月Build2017大会推出AIforWorkplaceSafety,可以作为AI视频技术在智能安防应用的典范。

AIforWorkplaceSafety的特别之处就在系统从视频影像收集、整合、分析、判断、预警的全过程实现了机器化、自动化操作,真正意义上提供了了去人化安防监控解决方案。

AIforWorkplaceSafety将摄像头数据处理、大数据搜索分析、云端储存等先进技术进行整合,致使系统可以如何谷歌百度一样对可视范围的物体进行搜索,实现对可视范围内人、事、物的实时监控。

在监控影像中,系统可以通过一整套系列参数(rendered、dropped、current、average)的设定各个物体的位置予以明确,并通过数据库里各类物品的特征对影像内的各种物件进行有效对照识别,用户可以通过语音系统输入既定物体的名称,系统即可以完成对画面里物体进行有效搜索并将搜结果通过系统平台反馈给用户。

在这个场景中,如果行为人没有按照公司规定要求将工具放置到指定坐标位置,系统则将通过平台发生文字与图像信息对于行为人的举动进行提醒。如果行为人未经过授权擅自使用特定工具,系统则将对该行为人的举动发生警告,当然如果行为人完成获得授权,系统则不会发出任何指令。