神经网络机器翻译

翻译知识

神经网络机器翻译

2019-04-16 22:42:00 作者：小原翻译|VISITORS: 1421|来源：互联网

Apr
2019

　　当我们听到有人谈论神经网络机器翻译时，是否有必要恐惧得瑟瑟发抖?

　　**近很多新闻报导称，下一波机器翻译 (MT) 技术革新将以深度神经网络 (DNN) 为动力。在一些内行朋友的帮助下，我试图对深度神经网络做一个简要的阐述。首先，需要强调一点，我会尽我所能对一些我并未完全了解的知识进行解释。不过，我仍然希望我的研究能帮助我理解一些基本原理，也希望能将这些原理与大家分享。

神经网络机器翻译

　　在过去几年里，您听过的大部分有关机器翻译的讲座都有可能提到过以下内容：“目前有两种基本类型的机器翻译，分别是基于规则的机器翻译和统计机器翻译，而第三种则是前两种的混合体——混合机器翻译。”您也可能听说过，基于规则的机器翻译是计算机时代**早的机器翻译形式，这可以追溯到 20 世纪 50 年代。那时，这种形式的机器翻译由一组关于源语言和目标语言的规则以及一个词典组成。基于规则的机器翻译的源语言和目标语言之间的转换可以通过“interlingua”来实现，即原文本的计算机化显示，或直接在源语言和目标语言之间进行。

　　而统计机器翻译 (SMT) 则是在 21 世纪初期得到迅猛发展。(**家商业机器翻译公司 Language Weaver(现被 SDL 收购)成立于 2002 年;2005 年推出广泛使用的开源翻译引擎 Moses，谷歌和微软于 2007 年也开始使用统计机器翻译;Yandex 和百度则是在 2011 年才开始使用统计机器翻译)。统计机器翻译，更确切地说“基于短语的统计机器翻译”，是基于双语数据和单语数据的机器翻译。它将数据解析为“n 元语法”，即由“n” 个词组成的短语。翻译过程中的源句段划分也是如此。之后将源语 n 元模型与目标语的 n 元模型进行匹配，再将它们合并，形成完整的句段——而这个过程通常会出现错误。(这就是我们采用一种仅查找片段而非整个句子的方法时，统计机器翻译拥有更丰富资源的原因。)统计机器翻译 (SMT) 的另一个潜在缺陷是过程中的错误选择，即当 SMT 系统试图在众多可能的目标 n 元模型中确定使用哪一个时，可能出现错误。而防范错误选择的其中一种方法是通过在系统已有的单语目标数据的基础上进行验证，但是这还远远不够。(顺便说一句，这也正是这种在翻译环境工具中可以一次性访问多个 n 元模型片段的方法成为今后发展主流的原因所在。)

　　在讲神经网络机器翻译之前，我们有必要暂停一下，向这项技术**初所提出的术语之一，即“递归异性关联翻译记忆”(由 Mikel L. Forcada 和 Ramon P. Neco 于 1997 年提出)的夭折表示感谢。神经网络机器翻译是一个具有极强计算能力的翻译过程(这是它在 1997 年没有出现的原因)。神经网络机器翻译是“机器学习”这一大领域下的一部分。1959 年，人工智能和机器学习领域的先驱 Arthur Samuel 将机器学习定义为“无需明确的编程下，就可赋予计算机学习能力的研究领域”。

　　在统计机器翻译中，重点是计算机学会的已经翻译的短语，而后就可根据这些数据重复利用和匹配这些已经翻译完的短语。而另一方面，神经网络机器翻译中使用包含许多节点的神经网络(从概念来说这种神经网络是以人脑为模型的)，它们彼此相关并且可以记忆单个单词，短语或其他片段。这些节点基于培训这一系统时使用的双语文本建立彼此之间的联系。由于这些多样且复杂的联系，神经网络机器翻译不仅可以翻译有限的 n 元模型(像统计机器翻译一样)，而且还能翻译整个片段，甚至更多的片段。这样，在处理某个待翻译的片段里时，能够形成对上下文，进而某个单词的意义更有依据的猜测。例如，当下谷歌、微软、Yandex 和百度的神经网络翻译系统都不大可能会把“音乐界对王子的逝世表示深深的遗憾”这个句子中的“王子”翻译成一个皇室的王子，至少理论上是不可能的。(同样，我也在为王子默哀。)

　　在有可分动词的语言，如德语中，例如 umfahren(“撞到”)，如果**初机器没有先把它切成 n 元模型，神经网络机器翻译系统很可能会注意到句子末尾处的动词缺失部分。以“Ich fahre den Fu?g?nger um”(“我撞到行人”)这个简单的句子为例。必应(今天的数据)将它翻译为“我朝着行人走过去”，而谷歌将它译为“我绕着行人开车。”只有 Yandex 的译文是正确的。(百度没有提供这种语言组合。)

　　机器学习(本身作为人工智能的一个分支领域)也开始应用于普通用途，逐渐形成某些语言联系(比如：“音乐王国”和“王子”;“请求...”和“嗯”)。这意味着，正如 Arthur Samuel 预测的那样，计算机在继续“学习”，而不是直接地被编程。

　　至少从理论上而言，神经网络机器翻译方法对上述的通用机器引擎(谷歌、微软、Yandex 和百度)而言前景非常广阔。这是因为“上下文”并不一定必须由训练数据指明，但可以通过系统评估上下文进行识别(前提是如果用户提供的不仅仅是一个单词或单个短语)。因此，当你听说那些公司都已跻身于神经网络机器翻译领域时，也会觉得毫不奇怪。他们自然是没有透露他们目前的系统中有多少是“神经”机器翻译，多少是“仅统计”机器翻译，但很可能二者兼而有之。而这将使一切变得更有意义，因为使用神经网络机器翻译的方式之一就是与统计机器翻译结合在一起——无论是作为一个独立的验证过程，或是作为一个综合的验证过程，都将有助于筛选出“合适”的多元模型。

　　类似的过程已经在某些领域取得了惊人的成就，诸如谷歌图像搜索(可有效的用于跨语言搜索，也有助于翻译过程)等搜索引擎所使用的领域。

　　您可能看到了这样的报导，Facebook 于今年早些时候专门针对其用户的通用语言，推出了自己的机器翻译系统。虽然该系统主要还是基于统计机器翻译，但是 Facebook 也在致力于提出一个神经网络机器翻译的解决方案。您可能也会想看看 Facebook 工程和语言技术总监 Alan Packer(微软前工程和语言技术总监)题为“《了解 Facebook 的语言》”的报告。

　　Packer 报告中的一个谬见就是，他将所有这些都描述为一种“线性发展”。他认为统计机器翻译差不多已走到尽头，未来将被神经网络机器翻译所取代。虽然我明白，一个如此深深扎根于某一领域的人肯定会不假思索地认为它是唯一值得付出和努力的方向，但实际却远非如此。早期那些统计机器翻译的支持者们也是如此，认为基于规则的机器翻译将被统计机器翻译所取代，然而这种猜想并未被证实。许多系统都采用了统计机器翻译和基于规则的机器翻译二者结合的方法，对于某些语言组合来说，基于规则的机器翻译可能仍是一个更好的解决方案(特别是对于那些相互关系十分亲密的语言对，比如加泰罗尼亚语、西班牙语或者克罗地亚语和塞尔维亚语)。

　　但是，我们是否正处于一个全新的重大突破的边缘呢?为了回答这个问题，你可能需要遍览 Diego BartolomeTauyou(语言技术)和 Gema Ramirez(Prompsit 语言工程)的联合报告，“超越了神经网络机器翻译的炒作。”由于没有开源工具可包用于神经网络机器翻译，就如Morses 之于统计翻译机器，很少有公司真正提供定制的神经网络机器翻译系统。有诸如深度学习框架 Theano 和 Torch 等的组件，也有特定的神经网络机器翻译软件，如 GroundHog 和seq2seq。但这些并不能算得上用户友好型，而且需要大量的专业知识。使用它们来构建神经网络机器翻译引擎需要大量的计算能力(10 个 CPU 或 1 个 GPU——图形处理单元)和时间(培训数据组装和清理之后，培训每个语言对还需大约两周)。Tauyou Language Technology 公司和 Prompsit Language Engineering 公司都是首批商业版神经网络机器翻译供应商。(有趣的是，Tauyou 有着统计机器翻译背景，而Prompsit 有着基于规则的机器翻译背景)。虽然他们还没有大规模销售神经网络机器翻译解决方案，但他们正在做大量的试点，这一点您将在报告中看到。这些试点的结果好坏参半。

　　我已经提到了更大的处理规模和时间需求。就当前将每种语言的词汇处理成普通语言的能力而言，还存在一定的限制。(与谷歌这样的公司相反)，系统实际翻译大约需要三倍时间，事实上再培训系统的新数据将还需要两周。但是，在质量上有一些改进，尽管根据报告，这种改进并不能为所有译员完全接受。(我认为，这与译后编辑时的低可预测性有关，而且可能会与部分建议中更加不稳定的决策有关。)不过，这仍然是游戏的早期阶段，所以这种质量上的不断改善在我看来只是很正常的一件事。

　　那么，当我们听到人们谈论神经网络机器翻译时，我们有必要为之担忧吗?虽然我并不完全了解这项技术，但我(以及此刻的您)所看到的数据表明这项技术取得的成就甚微。所以未来很长时间内您无需担心丢饭碗。不过，我确实期待看到神经网络机器翻译如何创新地改变翻译行业，提高我们的工作效率。

　　原作者：JOST ZETZSCHE，译文：佛山翻译公司实习生，转载请注明出处。

免责声明：文章部分数据、图片信息来源于互联网，内容仅供参考，如有侵权请及时联系我们进行修改或删除处理! 谢谢

上一篇：带数字的政治术语如何翻译？

下一篇：佛山翻译公司提供特定领域的翻译人才