智能时代下的手语翻译技术发展现状与趋势
摘要
关键词
智能;手语翻译技术;识别;深度学习
正文
(大学生创新创业训练计划项目编号:X202313300104,题目:“追形寻声”传声手套)
一、 智能时代下的手语翻译技术现状
手语中包含的信息量很多,它与语音及书面语等自然语言的表达能力相同,因而在人机交互方面,手语完全可以作为一种手段。手语是用手势比量动作,根据手势的变化模拟形象或者音节以构成的一定意思或词语,它是听力障碍或者无法言语的人互相交际和交流思想的一种手的语言。它为聋哑人士提供了交流的媒介,基于此自动手语识别技术应运而生。手语识别是一个典型的跨学科问题,其目标是将手语动作转换成更易理解的自然语言文本,手语识别作为人体语言理解的重要部分不但具有深远的研究意义,而且具有广阔的实际应用前景。手语翻译与生成技术研究与计算机视觉、自然语言处理、跨媒体计算以及人机交互等多个前沿研究领域密切相关。国外手语识别的研究起步于年,代表为和编写的可识别美国手语的程序。
此后,一些世界知名的高校、科研院所和相关领域的公司研究人员也开始逐步研究和探索手语识别,迄今已获得一系列重大突破。国内的手势别发展稍晚于国外,但发展迅速。其中,智能生成技术在手语翻译中占据着必要的地位,随着深度学习的发展,智能生成技术在当下已经取得较大的发展,可以自主进行分析及处理,实现文本生成及翻译等功能。当前,手语识别技术主要有两大类,一类是基于可穿戴设备的手势识别技术,包括数据手套、智能手环等,由于Wi-Fi、射频识别具有许多优点,比如不受光线影响、成本低且携带灵活;另一类是基于计算机视觉算法的手势识别技术,但其需要采集人的身体全部信息,存在隐私泄露问题,在跟踪调查中也较难争得对隐私敏感群体的同意。
此外,在部分光线以及空间布局下,手势可能存在被遮挡,识别效率会下降。第一类技术识别率较高,但需要额外的设备,成本高且较难普及。第二类技术不需要额外的设备或设备成本较低,但基于现有视觉算法,导致识别准确率较低,还需要进一步研发。目前还有的智能双向仿生手语翻译系统士可以进行智能化手语手势实时翻译设备,它将弯曲传感器等器件与放生机械手臂相结合,通过特定的算法,可以及时准确地处理各种手语手势语音信息,实现手语转语音和语音转手语的双向翻译,翻译速度快,实时性强,识别率高,适应能力强。随着智能时代的发展和学者们的不懈努力,手语手势识别技术已开始从实验室逐步向人机交互应用方面发展。然而,人机交互设备发展较为缓慢,并且大部分局限于室内使用。随着社会的发展以及信息沟通交流无障碍的输出,针对聋哑人手语识别技术的研究得到了社会更加广泛的关注,怎样才能使聋哑人和正常人呢一样得到整个社会方便快捷的服务,是社会进展的关键。
二、 智能时代下的手语翻译技术发展趋势
近年来,随着智能时代的发展,我国手语研究的热度呈上升趋势,手语研究形成“初步探索,平稳过渡,创新发展”的演进脉络。研究前沿聚焦基于深度学习的计算机手语识别开展,由于手语的复杂多变以及其复杂的使用环境,手语识别的研究一直存在着较大的挑战。而对其复杂多变的手势的研究,也能促进基于手势的人机交互技术的发展,随着对其研究的深入,使手语识别翻译技术实现了较大突破。目前,已有部分研究者进行了基于深度学习的手语识别研究,取得较大进展,许多研究机构和公司都在研发不同的手语识别系统,推出了基于深度学习的手语识别,但由于技术难度较高,还未达到高效准确的实用化水平。手语识别研究的主要目的是能开发出能够准确识别人类手语动作的计算机系统,手语识别研究按状态可分为静态手语识别和动态手语识别。静态手语识别研究主要集中在图像中检测识别,而动态手语识别则注重于一段连续的手势动作的识别及手语语句含义识别,由于授予的意义表示复杂以及与口语表达方式的不同,使得手语识别研究更具挑战性。手语是一种自然而有效的交流方式,包含视觉运动和手语的结构化手势形式,因此,按照技术类型不同区分,手语识别研究可分为基于传感器的可穿戴物理设备和基于视觉手语识别技术以及基于波的手势识别技术两类。基于传感器的可穿戴物理设备,通过聋哑人士穿戴手语手套等传感器设备进行手语转播翻译实现文字或语言输出;基于视觉手语识别技术,通过计算机摄像头对图像和手语视频连续帧进行对比分析;基于波的手势识别技术,不会受到环境光的影响,不论白天黑夜均可操作,并且识别准确度较高。可穿戴设备具有干扰性,且聋哑人士普遍经济收入较低,设备昂贵不易随身携带导致无法全面普及。通过对现有的手语翻译设备及技术的归纳,不难发现其都是基于感官,如触觉、视觉。
三、智能时代下的手语翻译技术不足与改进
(一)忽略用户需求
目前手语翻译技术研究多集中在技术层面,较少考虑手语使用者需求状况。在使用时,听力障碍人士、言语障碍人士、健听人士表达方式以及语法有差异,因此研究人士应发现各群体不同点,加以平衡,使手语翻译技术达到更好的使用效果,让使用群体有更好的体验感,促进无障碍沟通。除此之外,各个群体使用手语场景广泛,需要考虑各个场景下手语翻译的准确性及可实施性。
(二)产品载体和相应的技术不完善
首先,若使用手语翻译器,需考虑到翻译时的文字显示,需确保文字内容显示完整,并且文字信息应显示及时,减少等待时长,确保实时翻译,提高交流流畅度。其次,需注重聋哑人士的情感表达,在传导信息的同时需同时关注其情绪表达,避免造成交流对方产生误解,帮助双方顺利的情感交流。
(三)功能设置不便携
从实用角度出发,针对聋哑人交流需求设计的手语巧译装置应满足便携性、一定规模的可识别词汇量、较高的识别效率、低成本等基本要求。
四、结语
在如今倡导以人为本的社会条件下,为聋哑人士提供手语翻译技术得到广泛重视,手语翻译技术的深度研究,不仅能够为存在听力障碍的聋哑人士提供服务,也是机器深度学习的载体,更有望能成为最自然地人机交互方式。基于计算机视觉以及深度学习的手语识别,作为一种自然的、直观的交互方式,借用便携的物理设备作为输入载体,能够广泛地运用于多场景领域。此外,在提高技术的情况下,同时也应该考虑技术的人性化,不仅通过技术改变他们的生活状态,促进他们正常交流,同时也要让他们在使用该技术的同时感受到安全感、归属感、成就感。帮助他们塑造更加良好的心理状态,促进心理健康。总之,手语翻译技术的开发和发展有力地促进了残障人士的社会融入和生活改善,并且为智能时代的进步带来了新的机遇和挑战。
参考文献
[1]张宇,张鹏远,颜永红.基于注意力 LSTM 和多任务学习的远场语音识别.清华大学学报(白然科学版)2018,58(03):249-253.
[2]颜庆聪,陈益强,刘军发.基于 Direct3D 逼真中国手语合成技术研究及应用实现[J].系统仿真学报,2009,21(22):7160-7163.
[3]赵娜,杨鸿武基于关键词识别的语音到手势的转换计算机工程与应用,2016,52(21):146-151+194.
...