目前主流的视频客流量统计产品大体上可以分为四大类,随着算法的不同,它们在实现方式上又有些差异,对应的硬件设备也是很不一样:
第一类算法是通过对运动区域检测和跟踪算法来实现的。
其基本原理是提取出固定场景视频中发生运动的像素区域,结合对人体大小判断的一些先验知识,对这些区域的进行统计。当区域和经验中人的大小相似的时候,就判定为有人通过,从而实现对客流的估计,包括人的运动方向等。
第二种视频技术,最显著的特点是硬件上采用两个相同的摄像头,也就是平常人们所说的双目客流统计。
两个摄像头各自取得的视频,经过计算处理得到3D的图像,包括人的高度;通过检测高度为1-2米之间的视频内容,形成对人的识别和判断。
理论上,这种方式会有不错的准确度,但抛开成本不说,由于算法的复杂、设备的复杂带来的干扰,这类设备在实践中并没有表现出相对于单镜头设备的优势;同时由于算法采用的还是传统的视频处理算法,未来的发展潜力有待观察。
硬件方面,由于存在两个镜头,产品很难做得小巧,再加上设备安装高度低,单一设备检测面积、美观性等都明显不如单镜头设备。
接下来的第三类和第四类视频客流技术,采用的都是基于人体图像特征、深度学习、边缘计算等概念的算法,人们说视频分析客流统计技术高大上,其实主要说的就是这类技术,它们也是目前最时髦的计算机视觉与人工智能技术的一个分支。
这两类算法在基本原理上有些相似,采用的硬件也都是单镜头设备(单目客流统计),但其采用的模型是不一样的。
其一是头模型检测方式,即认定人的头顶部是一个深色的圆(近似圆或椭圆),通过视频分析,在视频图像中提取一些人体基本特征,通过深度学习算法建立的识别模型定位出图像中每个人,从而得到客流量数据。