谷歌揭秘自家翻译体系怎么使用AI技能进步翻译质量

2020-06-13 15:30:05 阅读：5930+ 来源：澎湃新闻 作者：责任编辑NO。石雅莉0321

（原标题：谷歌揭秘自家翻译体系：怎么运用AI技能前进翻译质量）

关于机器翻译来说，假如一门言语可用的文字材料越多，经过人工智能模型练习出来的翻译作用就越好。但并不是一切言语都具有丰厚可用练习的文字材料，这样一来，怎么在数据不多的情况下，练习出更好的翻译器，成为机器翻译范畴里需求处理的问题之一。

近来，谷歌在自己的博客上介绍了公司最新的翻译立异技能，这些技能前进了谷歌翻译的运用者实在的体会。现在谷歌翻译可支撑108种言语，均匀每天翻译1500亿个单词。

谷歌翻译最早露脸于2006年，在曩昔的13年间，翻译水平有了严重腾跃。谷歌表明，其翻译打破并不是由单一技能推进的，而是针对低资源言语、高资源言语、整体质量、推理速度等一系列技能组合的打破。在2019年5月到2020年5月之间，依据人工评价和BLEU(根据翻译体系翻译和人工参阅翻译之间相似性的衡量标准)，谷歌翻译在一切言语中均匀前进了5分以上，在50种语料资源最少的言语中均匀前进了7分以上。

混合模型和数据发掘器

在这系列技能打破中，谷歌首要提到了混合模型和数据发掘器。

混合模型指的是由Transformer编码器和递归神经网络（RNN）解码器构成的模型。在机器翻译中，编码器通常将单词和短语编码为内部表征，解码器将其生成为所需求的言语文本。谷歌的研讨人员在2017年称初次提出，翻译质量的前进首要依托编码器。谷歌团队称这可能是因为RNN和Transformer都规划为处理有序数据序列，但Transformers并不需求按次序处理序列。换句话说，假如所评论的数据是自然言语，则Transformer无需在处理结束之前先处理语句的最初。

尽管如此，RNN解码器在推理时刻上依然比Transformer中的解码器要“快得多”。谷歌翻译团队认识到这一点，所以在将RNN解码器与Transformer编码器耦合之前，对RNN解码器进行了优化，以创立低推迟、质量及稳定性均比此前所运用的RNN神经机器翻译模型更胜一筹的混合模型。

除了新颖的混合模型体系结构之外，谷歌还晋级了爬虫东西，爬虫东西能够从数以百万计的示例翻译中搜集编译练习数据。晋级后，谷歌嵌入了14种大言语对，而不是单纯根据字典数据。也就是说它是运用实数向量来表明单词和短语,更多地聚集于精确性(检索数据中的相关数据部分)，而非检索（实践检索的相关数据总量）。产出作用方面，谷歌说这使得该数据发掘器提取到的语句数量均匀增加了29%。

“喧闹”的数据和搬迁学习

谷歌翻译功能前进的另一个技能打破来自更好地处理练习数据中的“噪声”。“噪声”即喧闹的数据，因含有很多无法正确理解或解说的信息数据，从而会危害语料资源丰厚的言语翻译。因而谷歌翻译团队布置了一个体系，该体系运用经过练习的模型为翻译示例分配分数，从而筛选出“纯洁”的数据。实践上，这些模型一开始根据一切的数据进行练习，然后逐步根据更小、更纯洁的数据子集进行练习，这种办法在人工智能研讨范畴被称为课程学习。

关于机器翻译来说，传统上依赖于源言语和方针言语中成对语句的语料计算。关于资源较少的言语，谷歌在谷歌翻译中采用了一个回译机制，来强化并行练习数据，即言语中的每个语句都与其译文相配对。在该机制中，练习数据与组成的并行数据主动对齐，方针文本为自然言语，而源文本则由神经翻译模型生成。结果是，谷歌翻译充沛的运用更丰厚的单语文本数据来练习模型，谷歌称这对前进翻译流畅性特别有协助。

此外，谷歌翻译团队还建了一个M4模型。M4模型由团队在2019年提出，该模型对100多种言语的250亿对语句进行练习后，前进了30多种低资源言语的翻译质量。这一模型也证明了在机器翻译过程中能够正常的运用搬迁学习技能。这也代表着搜集包含法语、德语和西班牙语，这些稀有十亿个并行示例的高资源言语，并进行练习后，能够应用于翻译比如约鲁巴语，信德语和夏威夷语，这些仅稀有万个示例的低资源言语。

机器翻译的未来

谷歌称，自2010年以来，翻译质量每年都在前进，可是机器翻译绝不是翻译问题的“终结者”。谷歌供认，即使是增强后的模型也简单犯错，包含将一种言语的不同方言混合在一起，发生过多的直译，以及在特定主题，非正式或白话上的体现欠安。

谷歌测验用不同的办法来处理上述的问题。公司曾发布一项方案旨在招募志愿者，经过查看翻译单词和短语是否正确来协助前进低资源言语的翻译功能。本年2月份，谷歌翻译与新式的机器学习技能相结合后就完成了前进，他们供给了仅有7500万人运用的五种言语翻译，例如Kinyarwanda（卢旺达语），Odia（奥里亚语），Tatar（鞑靼语），Turkmen（土库曼语）和Uyghur（维吾尔语）。

寻求真实通用翻译的并不只要谷歌一家。在2018年8月，Facebook发布了一种AI模型，该模型结合了逐词翻译，言语模型和反向翻译，在言语配对方面体现优异。最近，麻省理工学院计算机科学与人工智能实验室的研讨人员提出了一种无监督模型，即能够从未经清晰符号或分类的测验数据中学习的模型，该模型能够在两种言语的文本之间进行翻译，而无需在两种言语之间直接进行翻译。

延伸阅览