中文EN
结合大规模语料与AI技术 推动濒危语言保护工作
2019-09-10 来源:《中国社会科学报》2019年9月10日总第1775期 作者:林茂灿
分享到:

  《中国语音学报》近期刊登了祖漪清等人的文章《用语言复制方法记录濒危语言——锡伯语案例》。该文提出一种用人工智能技术记录濒危语言的新方法,从中我们看到大规模语料与AI技术的深度结合对语言学研究、语言资源保护以及AI技术发展将产生重要推动作用。

  通过主流语言保存濒危语言

  2017年,美国科学家提出了话语罗塞塔(Speaking Rosetta)计划,旨在通过未知语言的语音和已知语言的文本平行关系记录没有文字的未知语言(通常是濒危语言)。

  祖漪清等人于2015年在工信部的“智能化语音技术及其产业化——面向少数民族的智能语音技术及其系统”项目中,开展锡伯语的语音合成工作。这一工作使他们产生了对濒危语言进行语言复制的构想:利用语音合成、语音识别和机器翻译等技术对濒危语言进行语言复制。多语种、多发音人的语音识别系统在语言分类和语言共性研究等方面积累的经验,可以借鉴运用到濒危语言处理领域,并帮助开发者较快地实现一个濒危语言的语言复制。

  这个构想提出的语言复制,是对一种语言的基本面貌进行的记录。常规录音数据至多能提高语言声音效果,而一旦有了这个濒危语言的语言复制系统,就可以输入主流语言或参考语言的任意文字或语音,通过转换输出该濒危语言相应的语音内容。基于主流语言或参考语言的系统框架,完成语言复制需要建立目标语言的语音合成系统、语音识别系统以及该语言与主流语言之间的翻译系统。语言复制系统输出的语音并不是自然语音,而是通过语音合成技术合成出来的语音。当一个濒危语言真的失传了,人们仍然可以通过语音复制系统和该语言进行交互。

  语音技术拓展濒危语言研究的空间

  有文字语言的语言复制系统框架大致如下:假设主流语言或参考语言为汉语普通话,目标语言为某濒危语言,再输入任意中文文字,系统可以输出这个濒危语言的语音。同样输入任意濒危语言的文字,系统也可以输出汉语的语音。

  目标语言语音合成系统是语言复制系统的基础。语音合成系统在语言保护、语言研究方面的意义远远大于实用意义。传统的语音合成方法需要通过文本分析,将文本转换成语音单元,然后将语音单元序列通过合成器转换成声音。在声学建模的环节中,需要定义基本语音单元(例如音素、声母韵母),同时还需要明确这些语音单元在连续话语中的韵律特征,即是否重读、所处韵律结构的位置等。除此之外,基本语音单元还承载了句法功能、语用功能、情感表现等更高层次的语言学特征。如果将这些语言学特征正确地标注出来,训练出的声学模型就携带了更丰富的语言学内容。在生成合成语音时,就可以产生更丰富的表现力。

  同时,语音合成系统的输出效果也可以检验语言学知识的输入是否正确。对于主流语言,例如汉语普通话,基本语音结构的定义已经十分明确,在音段标注方面可以达到自动化水平,而包括篇章、对话、情感等其他语言学特征还有研究的空间。对于濒危语言,基本语音结构尚未揭示清楚,利用语音合成技术可以得到完整分析。例如锡伯语的基本音素定义在连续话语中发生了大量音变,在数据标注过程中可以相对完整地发现音变规律,而孤立词无法展现这些音段上的变化。如果仅仅依赖人工分析,为了排除其他音素的影响,通常只能使用孤立词语进行分析。在语音合成的数据处理过程中,研究人员有机会对连续话语的每个片段分别进行音段分析,同时又在整体上对连续话语进行韵律等其他语言学层次的分析,通过数据标注将语言学知识传达给语音合成系统,并通过语音合成的输出检验知识的正确性。在这样的研究模式下,一定可以推动语言学研究。

  前面的讨论局限于有文字的濒危语言处理。而没有文字的濒危语言记录涉及的技术问题更为复杂,难度也更大,但是语音技术能够为没有文字的语言研究开拓更多的空间。

  语言资源保护与AI发展相辅相成

  汉语和少数民族语言学者,都可以利用这种语音合成系统开展自己的研究。我们认为,除了濒危语言记录,语言学家可以和人工智能工程师协作,在以下两个方面率先行动起来:语音学家及语言学家利用已有知识对数据进行精细标注,标注内容包括语音结构、句法结构,直至篇章信息结构以及超音段等内容;将标注好的语料,利用智能语音合成系统作为研究平台,通过合成验证的方式来细致考察输入的语言学知识是否正确。这种把大规模自然语料与人工智能AI相结合的研究方法,其成果既可研究基本语音结构,也可更深入全面地研究语句的焦点、韵律和语篇等的语言学问题,当然,也可进一步提高合成语音的自然度。

  在智能语言技术已经到来之际,语言学家和语音学家应该积极行动起来,做好语音与语言数据资源建设方面的工作,为我国AI产业的发展提供坚实的数据支撑。

  (作者单位:中国社会科学院语言研究所)

责任编辑:王宁