“方言保护计划”首支AI方言文化公益短片《懒画眉》海报。予安客串蓝衣侍女。(受访者供图/图)
“mo55老;w55大;wo55wo31帮助……”
这是一本独龙语发音与汉语词汇的对照词典。如今,独龙语母语者少于一万人,且普遍年龄大、文化水平低,不会写“独龙文字”,因此该词典收集的语料多为录音,直接用国际音标表示。
词典的 *** 者是人工智能,通过一种特殊算法,整个过程只需要输入两种语言的独立语料,不需要现有翻译,也不需要操作人员有任何关于独龙语的知识储备,就能获得对应词典。
该词典和背后的算法由英国谢菲尔德大学计算机系在读博士彭煦潭主导完成,为濒危语言的记录和保护提供了一种新思路。
联合国教科文组织在2020年的调查数据显示,全球七千多种语言中至少有40%处于某种程度的濒危状态。据商务印书馆出版的“中国濒危语言志”丛书记录,全国130多种语言中,有68种使用人口在万人以下,有48种使用人口在五千人以下,有25种使用人口不足一千人,有的语言只剩下十几个人甚至几个人会说。
“‘少小离家老大回,乡音无改鬓毛衰’道出了乡音的无限情感魅力;一个浪迹天涯、久别乡井的游子,偶尔在异国他乡邂逅素昧平生然而乡音无改的乡亲,那种喜悦、亲切、激动之情始终是使用国家通用语言——普通话所难以表达的。”著名语言学家詹伯慧曾在《语文杂记》描绘了这样一个场景,并写道,“方言将永远在它所通行的范围内充分发挥其无可替代的作用。”
“没有任何一种方言是一成不变的,以后方言也会‘适者生存’,而我锚定的是我们这个时代的话。万一它今后断层了,还能靠现在留下的音频文字资料唤回。”在保护方言方面活跃了近十年的85后苏州姑娘予安说道。
长大重学家乡话
2014年,予安忽然发现家乡的年轻人很少讲苏州话了。这一年,从事西班牙语教学的她回到苏州工作,一讲苏州话,11岁的表弟已经完全听不懂了。予安很吃惊,因为表弟3岁之前说着一口流利的苏州话,予安还录过他唱方言儿歌的影像。
原来,表弟小学六年均在寄宿学校上学,完全失去了苏州话的语言环境。而再往下了解,予安发现像表弟这样的00后大多不会说苏州话,能听懂的年轻人寥寥无几。
予安打算为此做点什么。她报名参加苏州市语委举办的苏州话辅导师培训班,并通过了口语评定。培训班上,予安发现身边的“同学”平均年龄六十岁左右,而自己的苏州话在他们听来非常“洋泾浜”(不正宗)。直到通过考核,拿到苏州话辅导师资格证书时,予安仍觉得自己“会教,但讲得不好”。很多同班同学则情况相反,他们讲得好,但是不会教,有人甚至没参加最后的考核。
考核结束后,学员们问负责人“我们拿了这个证能干嘛”,对方表示“你们自己去找街道搞活动”。于是很多人拿到资格证书后就没了下文。但予安没有停下,她继续想办法提高自己说苏州话的水平。
西班牙语专业的她决定像对待一门新语言一样来重新学习苏州话。苏州话所属的吴语在国内方言中研究资料较多,但予安找到这些资料后发现看不懂,于是从头开始自学与现代汉语教学相关的基础知识,并补充了国际音标知识。
“经历了一个很痛苦的自学过程,学完之后再看苏州方言资料时,终于能大概看懂内容了。”予安告诉南方周末,“作为语言学学生的我想看懂这些资料都这么累,普通人就更加难了。我意识到想学习的人和资料中间存在一条鸿沟。”
予安由此产生了做苏州话系统教学的想法。从2015年开始,她边学习边将总结的资料设计成课程,在 *** 直播间里进行讲解。课程信息在吴语爱好者的社群中发布,吸引感兴趣的人来直播间免费听课,教学相长。就这样过了三年,予安利用业余时间整理出了一套完整的苏州话教材,包括教程、练习册及音频,自己的苏州话也不再“洋泾浜”,已经能够准确熟练地使用不少像豪稍(ghausau,赶快)、姑歇(koushiq,现在)这样的地道词汇。
王振辉是这套苏州话课程最早的听众之一,如今在北京大学读材料专业研究生。他出生于浙江余杭,当地方言是他的之一语言,直到上幼儿园时他都听不懂老师说的普通话。但后续的求学生涯里,在校要说普通话,王振辉身边不会说方言的同学越来越多。2016年高考结束之后,王振辉关注到一个叫做“吴语”的公众号,之一次知道自己平时说的“土话”原来有个这么优雅的学术名称。王振辉想起儿时曾经在征文活动中获得的一本《余杭方言》,决定动手为自己家乡写一本方言词典。
他对照《现代汉语词典》,用汉语拼音给余杭话词条“注音”,却发现很多特殊音调都标注不出来。王振辉给“吴语”公众号后台留言请教,被推荐加入了吴语爱好者社群,认识了予安等一众爱好吴语的朋友。进入大学后,材料专业的王振辉经常会坐一个半小时地铁去复旦大学旁听中文系的语言学讲座。到了大二,他选修了文学院的专业选修课语言学概论,并在最后的考试中获得了96分的好成绩。
掌握一定的语言学知识后,王振辉参与了更多方言保护项目:和吴语学堂网站的朋友一起做了在线的吴语字典查询系统,他负责自己家乡方言的部分,为三千多个字配上了国际音标;对2016年暑假尝试 *** 的词典也进行了返工,五年时间内整理出一万四千多个词条,并配上了录音。
教AI“说”方言
2010年,讯飞输入法发布了语音输入功能,该公司品牌经理项扬之一时间将语音输入法推荐给父母,却没收到预期的称赞——项扬父母的普通话带着很重的方言口音,针对普通话设计的语音输入没法准确识别出他们说的话。这样的情况同样出现在全国各地的方言使用者身上,不少人反馈“使用不便”。
受到启发,研发团队陆续推出粤语、合肥话、四川话等方言语音输入法。
让团队意外的是,他们跟踪不同地区的使用数据,发现在某些地区,方言输入法难以推广。
深入研究后,该公司总经理程坤得知,国内很多方言如今缺少生存环境——人们日常生活中使用方言的场景越来越少,年轻一辈很多人会听不会说。在此背景下,程坤作为带头人之一在2017年正式发起了方言保护计划,利用人工智能加快推进方言保护。程坤在一次采访中表示:“如果不能有效保护方言,我们将永久失去完整记录人类文化遗产的机会。”
同年,大学期间自学了上海话的王振辉受朋友邀请参与了其中的上海话AI语音识别输入项目。简单来说,AI学习上海话需要“教材”,王振辉就是编教材的人。项目团队先编写一部词典,几乎覆盖上海话所包含的所有音素,由此形成文字语料,再请母语人士逐条录音——经过审校后形成AI的上海话教材。
王振辉所在小组负责编写上海话词典,具体做法是查阅相关资料,为普通话词条找到对应的上海话说法和写法,并在不同资料有出入时进行取舍。这项工作看似简单,其实要求参与者既会上海话,又了解上海话的方言正字。正字往往用于标识普通话中没有对应读音的字,多为生僻字及学者造字,一般人在生活中接触不到,自然也就无从了解。此外,有些生僻字在大多设备上无法显示出来,只会出现一个方框,此时王振辉还得寻找方言里的同音字进行代替。
编出这样一套给AI的方言教材通常要半年以上。接下来,就轮到AI学习了。尽管有教材,其中复杂的方言声调和字词还是会频频难住AI。据科大讯飞AI研究院高级研究员许丽介绍,懂得相关方言的专家和技术人员“联合辅导”。项目过程中,许丽一遍遍去听算法识别错误的语句,找出问题,“少的时候几十条,多的时候一百来条”,等到AI学成“上岗”时,许丽最初一窍不通的那门方言如今可以听懂常用语句了。
2018年,上海话的语音输入法基本成型,王振辉将这个功能推荐给了身边所有会说上海话的人,大家使用后都觉得很新奇。AI学会了上海话,团队将目光转向苏州话。经王振辉介绍,予安将自己整理好的苏州话学习资料,包括词典、音节录音等都共享出来,大大减少了给AI编写苏州话“教材”的工作量。
2020年国际母语日的一场学术讲座预测,到21世纪末可能会有4000多种语言灭绝。图为云南昆明的三位独龙族文面女,该族母语者如今不足一万人。(视觉中国/图)
同年,科大讯飞推出方言小程序,吸引广大网友上传自己的家乡话,收集到不少非常具有地方特色的语料,比如顺口溜《合肥老母鸡》,“从肥东到肥西,买了一只老母鸡;拿到河里洗一洗,除了骨头都是皮”。团队将这些语料搭建成线上方言库,AI学方言有了新的数据集。科大讯飞AI研究院高级研究员许丽告诉南方周末,新的数据集覆盖的音色和发音特点比原先专门找人录的要好很多,不但能助力开发新的方言语音输入,还有助于提升原有方言语音输入的准确率。
除了贡献资料,予安也参与其中,将网上收集到的苏州话语音转录成方言文字。这比王振辉编写方言词典难度更大,需要转录者听懂且熟悉方言字的写法。项目断断续续进行了三年,参与者人员流动很大,但予安一直没有退出,前后培训出了将近一百名转录者。“从某种角度来说,我觉得没有跟现代技术结合的方言,只能是死路一条,只有靠技术留存下来的才可能永生。”予安说,“这就是我积极参加这些项目的原因。”
全自动、大规模沟通
AI学语言,如今可以自己生成少数民族语言-普通话对照词典。
其中所依托的技术叫“无监督跨语言词向量算法”,是彭煦潭博士期间的主要课题之一。彭煦潭形容,该算法“哪怕今天听上去都像魔法一样”——使用者只需要输入两套语言的原始语料,AI就会自动生成对照词典。
2018年之一次了解该算法时,彭煦潭还在读本科,当时他便认为这是一项划时代的技术,“理论上说如果有一天外星人出现,我们都可以尝试靠这项技术来沟通”。
2020年,彭煦潭尝试用这项技术生成濒危语言词典。难度主要在语料数量上。该算法需要每种语言一万个句子的训练数据,常用语言的语料丰富,能够轻松达到要求。但濒危语言留存下来的语料极少,很难满足数量要求。最终,彭煦潭和团队伙伴想到在算法中引入与汉语和濒危语言均有联系的第三种语言作为“桥梁”,在无法提高低数据量的前提下,提升算法的准确率。
“由于少数民族的语料主要围绕神话传说、民间故事、民歌和日常会话,我们想,或许可以构建现代汉语同领域的语料库,当各自的语料领域相对近似时,可以通过对齐算法建立濒危语言和现代汉语之间的联系。”彭煦潭在一次采访中这样解释这一技术突破。他们在具体操作过程中利用了百度飞桨平台能力,最终实现了全自动生成大规模的“汉语-少数民族语言”词典。
这个AI生成濒危语言对照词典项目,为彭煦潭和团队伙伴司靖辉、陈冠毅赢得了第三届“中国高校计算机大赛人工智能创意赛”海外赛区一等奖、更佳案例奖和优秀开源奖,受到了中国科学院的关注。
中国社会科学院内正在做濒危语言保护的学者联系上彭煦潭,希望彭煦潭能将这套算法的使用权捐给正在进行的项目。濒危语言的田野调查一般繁琐且耗时甚久,研究人员需要花大量时间与母语者相处,收集录音,并学习濒危语言,再对收集到的语料进行人工归档。疫情暴发后,就连这样的田野调查也难以持续,而彭煦潭的算法可以帮上大忙。
与研究者语言保护工作者沟通后,彭煦潭毫不犹豫地将算法开源,并将使用权赠予了他们:“我认识的很多博士甚至老师做的项目,其实很少有机会产生对真实世界的影响力。没想到参赛后真的有人需要我们的产品,这对我们来说是一个很宝贵的机会,也是我非常看重的。”
算法投入使用后,语言保护工作者不再需要向母语者一字一句地询问意思,而是能直接依靠AI生成的词典进行对照,找出不确定的那些向母语者确认。彭煦潭将这个过程比喻为拼图:“原来他们需要面对几千几万片杂乱的碎片,在我们的帮助下能先形成个大概框架,再去寻找每个句子中缺失的碎片就行,省去了从头搭建框架的过程。”
AI学方言的效率大幅提升后,彭煦潭瞄准了古文。2021年,他再次利用向量对齐技术设计出一套为古代文献生成现代语言梗概的算法,能直接为一段古文生成现代语言梗概。
为了检测AI学古文的水平,彭煦潭找来明代邸报的抄本《万历邸钞》和来源于1650年至1800年间的德国报纸的内容,让AI分别翻译成现代汉语和现代德语并给出梗概。作为对照,彭煦潭曾经请古汉语和古德语专业学者翻译同样的文章,每篇文章的阅读和总结时间都超过二十分钟。AI交卷用时不到0.1秒。
生活何处无方言
学会多门语言的AI,还有更大的用武之地。
2020年2月,全国医护人员支援武汉疫情,武汉的大多病患,尤其是老年人只会说方言,而援鄂医护人员来自五湖四海,面对“克受”(咳嗽)、“陡子胀”(肚子疼)等武汉话描述,不少人摸不着头脑,沟通非常困难。
2020年2月初,由多所高校发起的“战疫语言服务团”诞生,专门解决医患沟通中的方言障碍。由于人力有限,“战疫语言服务团”向讯飞输入法团队发出邀请,当时只能居家办公的后者开始远程研发“武汉话转普通话”功能。
这是一场AI对武汉话的突击学习。技术团队已有的武汉话语料积累多为日常生活用语,难以满足医疗问诊场景下的需求。于是,团队通过在武汉的同事发动人们收集医疗场景下的语料数据,同时在线上发布众包任务,号召武汉话使用者参与贡献。
收集到足够的语料后,团队又用最快的时间进行标注与AI算法训练,从接到需求到功能正式上线用时不到十天。
使用该功能后,医护人员既能在屏幕上看到病人所说话语的普通话版本,也能直接通过普通话自动播报功能听到普通话翻译。据团队统计,援鄂期间,“武汉话转普通话”功能使用次数达到七十多万次。
医疗场景之外,方言保护计划也逐渐进入了更多人的日常生活。
2021年7月,予安看到上海话短片《满庭芳》,被这个精美的方言作品所震撼。 *** 团队蜃楼志STUDIO由一群爱好古装短片的 *** 人士构成,名字源自清代同名长篇白话小说,意在传达“那些逝去的时代离我们非常遥远,真实存在事件种种,我们只能抓取小小一隅,如塑造梦境一般,带大家窥见时代的一角”。
予安自发为AI技术团队和蜃楼志STUDIO牵线,希望能将技术与艺术相结合。双方沟通后,合作迅速展开,在2021年12月联合出品了“方言保护计划”首支AI生成方言旁白的文化公益短片《姑苏琐记金缕衣》。
《姑苏琐记金缕衣》的故事并不宏大,讲述的是“江南一等一的风流人物”沈月娘与山塘绣工玉姑之间的短暂交集。“这个绣娘名叫玉姑,活计做得精致,在山塘一带小有名气,今日沈月娘托人找她置办裙料,玉姑便来到了沈月娘的住处。”短片开头,背着包裹、怀抱油纸伞的玉姑正在赶路,镜头跟随她的视角展示出闲适幽静的园林景致。吴语旁白与玉姑行走的画面同时出现,将故事背景徐徐展开。
这段具有全片介绍作用的旁白由AI合成,其效果远超大多缺乏感情、没有变调,一听就是技术合成的AI语音,在片头作为引入并不违和。有人评论道:“音调像是现在苏州本地年轻人的夹生苏州话。但是,会讲已经很不错了,希望能越做越好。”
还有评论表示片中AI的苏州话用词比自己身边很多年轻人还要地道,这归功于予安和她的朋友们。团队撰写完剧情后,他们将普通话文本转写成苏州话文本。由于方言字并不好懂,拍摄前予安还会先给演员们讲一遍正确的读音。短片发出后,予安做了一期详细的台本解读视频,讲解其中比较难懂的方言词语。
看到成片,同样在为留存方言努力的王振辉赞不绝口:“可能很多年轻人对地方戏曲等以方言为载体的传统艺术没有兴趣。但是一旦引入了科技,不但可以将方言记录下来,还可以让年轻人关注到,并发现原来方言也可以这么有趣。”
南方周末特约撰稿 陆宇婷
ai语音合成方言 ai篡改语音是什么软件