视线追踪系统中注视点估计方法研究综述

A Review of Gaze Point Estimation Method in Eye Tracking System

                          金纯1,2,李娅萍1

 

 

 

 

(1.重庆邮电大学通信与信息工程学院,无线传输重点实验室,重庆4000652.重庆金瓯科技发展有限责任公司,重庆400041)

JIN Chun1,2 , LI Yapping1

(1.Wireless Transmission Key Laboratory, School of Communication & Information Engineering, Chongqing University of Posts & Telecommunications, Chongqing 400065; 2.Chongqing Jinou Science&Technology Development Co. , Ltd. ,Chongqing 400041)

摘要文章在回顾视线追踪技术发展历程的基础上,对该技术的研究方向和几种主要的视线跟踪方法进行了简单阐述。重点介绍了基于瞳孔-角膜反射法的视线追踪技术的原理及其硬件组成,尤其对现有视线跟踪系统中比较成熟的注视点估计算法进行了归纳总结和原理剖析,进一步对二维和三维的注视点估计算法的精度和用户自由度进行了横向比较。最后指出了视线追踪技术存在的缺陷,并对其在人机交互、智能机器、虚拟现实等领域的应用前景进行了展望。

关键词:视线跟踪;瞳孔-角膜反射;注视点估计;人机交互;虚拟现实

中图分类号:TP181文献标识码:A

AbstractA review of eye tracking technology was presented in this paper. First, from the view of history development, we elaborated the research direction andseveralmethodsin eye tracking system. Then,the principle and hardware were introduced in current eye tracking system which was based on pupil-corneal reflection method and a horizontally comparison of precision and user’s DOF(degree of freedom) was made between gaze point estimation algorithm of 2D and 3D through further summarized and analyzed the well-developed gaze point estimation algorithm.Finally, it was also indicated the defects of eye tracking technology, and made a vision for its application prospect in the field of human-computer interaction,intelligent machine,virtual reality and so on.

Keywordseye tracking;pupil-corneal reflection;gaze point estimation;intelligent machine; virtual reality

0 引言

视线跟踪技术是一项利用人类眼球运动信息来到达控制设备目的的科学应用技术,解决了上肢有残疾或者双手因执行操作任务而被占用的人员对计算机等终端设备操作的难题,近年来迅速获得国内外相关学者的广泛关注,被广泛应用于视觉注意机制的研究、页面分析、人机交互、虚拟现实、智能机器以及军事等领域。国外在20世纪初就开始研制相关眼动仪器,美国、日本等国家在这方面的研究比较深入,已经走在世界的前列,进入实用化和商品化的阶段。国内大约在二十世纪70年代末80年代初才开始了对视线跟踪技术的研究,目前还没有成熟的视线跟踪产品,但是很多高校以及研究机构如清华大学、西安电子科技大学、浙江大学、天津大学、北京科技大学等都对该技术表现出了非常大的兴趣。90年代,西安电子科技大学开发了眼动测量系统,北京航空航天大学开发了人机界面评价试验台,推动了国内视线追踪技术的不断发展。

当前的视线追踪系统中,对其原理的研究主要是围绕如何精确的、对人无干扰的追踪人的眼动过程来进行的[1]。当用户头部静止时,视线追踪精度较高,视线落点距离真实落点较近,紧密散布在其周围;当用户头部自由运动时,视线追踪精度较之静止时刻相对降低,视线落点与真实落点之间的距离逐渐增大,在其周围的落点分布相对松散。因此,如何在复杂的应用场景中适应不同的用户以及在追踪精度、用户自由度和成本之间寻找一个平衡的切入点显得至关重要。

1基于瞳孔-角膜反射法的视线跟踪技术原理

基于瞳孔-角膜反射法的视线追踪系统采用红外光源照射眼睛,在人眼角膜上产生反射光斑,眼睛注视不同方向时,瞳孔中心随着视线方向发生相应的变化,角膜反射点的位置固定不变。利用眼球和角膜反射点的这种特性,提取视线特征参数(瞳孔中心和角膜反射光斑中心),通过相应的注视点估计方法就可以得到视线的落点位置[2]

系统主要由相机、红外光源、图像采集卡及计算机组成,包括视线特征参数提取、注视点估计、误差补偿和校准几个模块。其中注视点估计是直接决定系统精度的核心模块。随着视线跟踪技术的快速发展,涌现出了各种各样的注视点估计算法[3]。本文就是在上述视线特征参数提取模块的基础上,对注视点估算法做进一步的解析和归纳。图1为视线追踪系统结构框架图。

1 视线追踪系统结构框架

Fig.1 The structure frame of eye tracking system

 

2注视点估计算法

注视点估计算法是视线跟踪系统中非常关键的算法,包括计算视线方向所需的来自用户的参数化后的眼睛几何信息。大致可分为两类:基于二维映射模型的视线估计方法以及基于三维的视线直接估计的方法[4]。两类方法优缺点如下表所示。

 

1两类方法性能分析

Tab.1 The performance analysis between two methods

类型

优点

缺点

二维

1.仅需使用平面眼睛特征参数,眼睛特征识别和参数提取简单快速。2.不需采用立体视觉,可采用单相机。3.不需估计角膜球面中心的空间位置,仅需知道普尔钦斑与瞳孔中心的相对位置,可采用单光源。4.不依赖于立体视觉,对硬件配置要求较低。5.不需相机、光源位置、屏幕标定,仅需用户校准。

1.估计精度随使用者头部运动而迅速下降,需头部保持静止。2.依靠校准来确定眼睛特征参数和视线映射函数,标定点较多

三维

1.采用立体视觉,允许使用者头部运动。2.只需标定视线与眼球光轴的夹角,标定点较少。3.估计的是空间视线方向,不依赖于屏幕位置、大小、形状,可计算视线在任何物体上的注视点,不需重新标定视线估计函数。

1.至少需两摄像机和两光源,硬件配置复杂。2.需进行相机、光源位置、屏幕位置标定,任一个发生变化需重新标定。

 

2.1 基于二维映射模型的视线估计方法

2D视线估计方法首先计算出注视点的二维坐标信息,然后建立其与注视目标之间的映射关系,得到视线在注视目标的注视位置。比较常用有多项式拟合、交比映射、机器学习几种方法,其中机器学习又主要有神经网络、支持向量机等方法。

Morimoto等人提出了提出一种非接触式的视线跟踪方法[5],通过二阶多项式拟合方程来确定注视点的位置。

1

上式中,指屏幕上注视点的坐标。在单相机无光源系统中指人眼图像中瞳孔中心的坐标或者瞳孔中心与内眼角坐标矢量差;单相机单光源系统中指人眼图像中瞳孔中心与光斑的位置相对偏移量;单相机双光源系统中指人眼图像中瞳孔与两光源中点坐标的相对偏移量。为待定的未知系数,根据校准过程中不同的来确定。该方法需要校准过程,头部保持静止时追踪精度较高,误差范围控制在1cm以内,但该方法对头动比较敏感,极大的限制了用户自由度和视线追踪技术的实用化。文献[6]在该算法的基础上,提出了一种头部深度平移和平面平移的补偿方法,利用深度平面移动比例系数对视线的落点进行了补偿,允许头部在水平和垂直方向上偏移2~3个头部位置。

张鹏翼等使用立体视觉信息的视线追踪系统设计[7],使用神经网络结合卡尔曼滤波的方法对瞳孔进行跟踪,在结合支持向量回归对人眼参数和注视点之间的关系进行训练,利用神经网络的非线性映射能力对视线状态转移模型进行逼近来跟踪视线。

用下面的数学式作为神经网络的输入,代表瞳孔在t时刻的状态向量:

2

其中,瞳孔在t时刻像素质心,t时刻瞳孔在cr方向上的矢量。下面数学式表示瞳孔在t+1时刻的状态向量,作为神经网络的输出

3

通过训练,该视线状态转移模型可以表示为:

4

其中,为神经网络逼近的状态转移模型,为系统噪声,服从正态分布。该方法对人无干扰且用户自由度高,但是系统冗余度和精度不能很好的满足系统需要,并且在成熟度和实用性方面有所欠缺。

Dong Hyun YooMyung Jin Chung提出了头部自由的基于投影空间的不变值的免定标视线估计方法[8]。该方法采用一个摄像机四个红外光源,四个红外光源安装在计算机屏幕四个角,在人眼角膜上投射出四个反射光斑,利用光斑所形成的四边形的投影关系进行视线方向的估计。该方法有三个坐标系系统:屏幕坐标系、摄像机坐标系和眼图坐标系。眼图坐标系中瞳孔中心点在四个光斑所形成的四边形中的位置坐标与屏幕坐标系中视线落点在屏幕上的位置坐标之间为映射关系,根据交比不变的性质可估计出视线落点的屏幕坐标。文献[9]提出了基于空间三点映射的相似三角形的注视点估计算法,利用人眼图像中瞳孔中心与两反射点构成的三角形和屏幕上注视点及两个红外光源构成的三角形可看作近似三角形来确定屏幕上注视点的位置。

5

其中,为注视点坐标。分别是两红外光源的坐标位置,其坐标值可通过测量获得。分别是图像中瞳孔中心及两反射光斑的坐标,其坐标在图像处环节可获得。以上两种映射方法精度较高,但是忽略了眼球的曲面生理结构,把眼球看作平面在欧式几何中进行建模,降低了系统的精度。同时对眼球生理结构中视轴和光轴的区别没有考虑在内,没有进行视轴和光轴之间的转换。

此外文献[10]还提出了一种以角膜反射中心指向瞳孔中心的向量作为平面视线方向参数,通过训练多位测试者盯视屏幕标定点,经分析得出立体视线方向角的数据,进而得到视线落点。同时该文献还提出了头部位置变化计算模型,在头部位置变化时对视线落点进行了补偿。此外还有基于模板匹配法的注视点估计定位,眼睛方位直接判别法等估计方法。

2.2 基于三维的视线直接估计的方法

3D视线跟踪方法不需要用户提前进行校准,根据视线在空间中的具体位置,与计算机屏幕相交得到视线在空间中的目标注视点。此类技术先确定脸部三维空间坐标,再使用二维视线跟踪方法,最终得到三维视线坐标。

郑思仪等提出一种基于眼球结构的视线映射几何模型设计[11],通过光源与角膜反射点得到角膜曲率中心和光轴的空间直线,利用光轴和视轴之间的夹角得到视轴的方向,解决了用户头动状态下的视线落点精度计算的问题。该算法需要知道两光源角膜反射光斑和瞳孔中心P5个点的空间坐标和屏幕平面方程。光源与对应的反射光斑的连线和光源与对应的反射光斑的连线的交点为角膜曲率中心O

6

角膜曲率中心O与瞳孔中心P的连线称为眼球的光轴

7

由于视线的落点是视轴与屏幕的交点,因此需要进行光轴与视轴之间的转换。人眼光轴和视轴之间有一个大约为5°的夹角,利用光轴与视轴之间的夹角关系和补偿算法得到视轴的方向

8

该方法虽然在用户自由度方面有了提高,但是摄像机和光源等需要保持相对的静止,一旦移动则需要重新标定,大大降低了系统的精度。文献[12]提出了一种对测量误差进行补偿的标定方法,分别说明了在光源、光源角膜反射点和瞳孔中心标定不准确时误差的范围并对其提出补偿。表2为以上几种二维和三维注视点估计方法性能比较。

 

2注视点估计方法性能比较

Tab.2 The performance comparison of gaze point estimation algorithm

估计方法

允许头动范围(mm

系统平均精度

系统硬件配置

多项式拟合法

<70

单相机无//双光源

神经网络法

相机光轴方向300

1.8°

双相机双环形光源

交比映射法

距离屏幕600-700:200×170×100(水平/垂直/前后)

0.34°

单相机四光源(双光源)

空间眼球结构法

距离屏幕350:直径200的大圆内

水平1.4°,垂直1.6°

双相机双环形光源

3视线追踪技术未来发展趋势

视线跟踪技术可以理解人们的意图,人们的状态,同时做出相应的反应,由无意识的机械装置转变为有意识的智能装置,被认为是最有价值的技术。目前,三星和LG都推出了搭载有眼球追踪技术的产品。通用汽车成为首个引进视线追踪和头部追踪技术的汽车公司。然而,对于当前的视线追踪系统而言,这一技术无法满足实际的应用需求,在国内并没有得广泛的应用。比如,让机器对人类眼睛动作的真实意图进行有效识别,以判断它是无意识运动还是有意识变化,并不是一件容易的事情。主要的原因在于:

1)视线跟踪精度低。由于人眼生理结构的复杂性和人类视觉特点的非线性特质,使得目前的视线追踪技术研究中没有准确的视觉映射模型,且不能通过手动测量来得到视线落点。同时由于部分用户存在近视和远视及斜视等情况,造成眼球曲率的后天变化,使注视点估计算法的精确程度更加具有挑战性。

2)用户自由度低。视线追踪技术大体还存在这样一个状况:头部保持静止时,视线追踪精度较高;头部运动时,视线追踪精度大大降低。目前的商品化和实用化的视线追踪仪器对精度要求较高,要求用户使用时保持头部位置固定,给用户带来了很大的不便。在医疗领域,干扰式视线追踪技术对用户的产生的不便相对较小,在人机交互、虚拟现实及智能机器等领域,干扰式的视线追踪系统极大的限制了用户的头动自由度,使用户体验的舒适度和自由度大大降低。

3)视线追踪的实时性。由于算法的复杂度和硬件设备帧频的限制性,使系统不能够很好的满足用户实时的需求。

4)系统成本高。大部分的视线追踪系统均使用了多个相机和多个光源及其他的比较昂贵的专业辅助设备,导致当前的视线追踪仪器价格过高,不能得到很好的推广。

因此,视线追踪技术的当前研究目标主要朝向了精度、自由度、实时性几个方面,提高系统的鲁棒性、精确性和减少识别时间是努力的重点。在未来人机交互领域,这项技术将成为人类和机器互动的主要方式之一,对鼠标、键盘以及触摸等比较成熟的人机交互是一个很好的补充,交互智能化成为未来人机交互的一个主要标志。在军事领域,智能头盔、瞄准器等设备可以不需要借助使用者的双手来对发射、转向、瞄准等操作,以使用者视线的转动或静止来对设备进行操作,极大的节省了作战时间,并且视线具有很大的自由度和保密度。同时该技术还可以应用在驾驶员疲劳监测、网页兴趣点监测、心理研究乃至刑事侦查等领域,具有极大的现实意义。

4 总结

本文在总结了大量文献的基础上对视线跟踪技术的国内外发展历程、原理及跟踪方法进行了回顾,分析了几种主要的视线跟踪方法原理和技术特点。重点介绍了基于瞳孔-角膜反射向量法的视线跟踪技术,阐述了其技术原理及系统构成,并揭示了原理性框架之间的内在关系。最后对注视点估计算法进行了归纳总结,并对二维和三维的注视点估计算法的精度和允许头动范围做出了比较。然而由于人眼固有的生理机制及眼动的非线性、随机性和复杂性,使得视线追踪技术在实际应用中受到很大限制,如何平衡其精度和自由度一直是视线跟踪系统中存在的一大难题。但其作为研究和利用眼睛动作的一种重要手段,其未来是光明的,必将朝向高精度、高自由度及低成本领域迈进。

参考文献

[1]      Yang X H, Sun J D, Liu J, et al. A gaze tracking scheme for eye-based intelligent control[J].WCICA,2010,52-55.

[2]      Sigut J, Sidha S. Iris center corneal reflection method for gaze tracking using visible light[J].IEEE Trans.Biomedical Eng.,2011,58(2):411-419.

[3]      黄亚勤.基于视线跟踪技术的眼控鼠标研究与视线[D].成都:西华大学,2011.

[4]      Hansen D W, Ji Q. In the eye of the beholder:A survey of models for eyes and gaze[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(3):478-500.

[5]      Morimoto C H, Koons D, Amit A, et al. Pupil detection and tracking using multiple light sources [J]. Image and Vision Computing, 2000 18(4):331-335.

[6]      朱博,迟健男,张天侠,.视线追踪系统头动状态下的视线落点补偿方法[J].公路交通科技,2013,30(10):105-112.

[7]      张鹏翼,王志良,郑思仪,.使用立体视觉信息的视线追踪系统设计[J].北京邮电大学学报,2010,33(1):47-52.

[8]      Yoo D H, Chung M J. A novel non-intrusive eye gaze estimation using cross-ratio under large head motion[J]. Computer Vision and Image Understanding, 2005,98:25-51.

[9]      杨彩霞.基于近红外光源的非接触式视线跟踪技术研究[D].济南:山东大学,2012.

[10]  Shao G J, Chen M, Zhang B Y, et al. A novel simple 2D model of eye gaze estimation[C].2010 The 2nd International Conference on Intelligent Human-machine Systems and Cybernetics. Nanjing: IEEE Computer Society Press, 2010:300-304.

[11]  郑思仪,王志良,张鹏翼,.一种基于眼球结构的视线映射几何模型设计[J]. 系统仿真学报,2012,24(3):638-644.

[12]  迟健男,张闯,王翠娟,.双摄像机双光源视线追踪系统标定方法研究[J].仪器仪表学报,2011,32(4):883-892.

外文作者姓前名后,名用缩写,不加缩写点,姓全部大写,如Albert Einstein写成Einstein A)