织梦CMS - 轻松建站从此开始!

棋牌_棋牌游戏_棋牌游戏平台_网络棋牌游戏-棋牌游戏下载

当前位置: 主页 > 搜狗指南 >

搜狗+NMT+团队:神经机器翻译将消除跨语言沟通障 …

时间:2018-11-11 08:51来源:未知 作者:admin 点击:
自 2016 年 8 月搜狗 NMT 团队成立至今,其自主研发的「机器翻译·一期系统」基本搭建完成。近日,人工智能媒体《机器之心》对搜狗 NMT 团队进行了专访。搜狗搜索技术负责人许静芳、搜狗搜索机器翻译负责人翟飞飞、清华计算机系副教授刘洋,就「搜狗神经机器翻译」的优势、团队组建和技术拓展等问题,展开了深度的分享。翟飞飞:在统计机器翻译中,我们使用调序模型来处理不同语言之间词序不同的问题。但在处理长距离调序时,由于搜索空间太大,调序模型很难做到有效建模,导致许多统计机器翻译系统生成的译文存在较多词序错误,难以看懂。但 NMT 的模型架构对处理长距离调序问题特别有效,生成的译文更为流利。许静芳:我觉得这个会很快,当然有一个前提,就是提出什么样的要求,如果要求特别流畅,包括上下文的理解,那不一定能做到。但由于语言的障碍,至少可以从以前的不能交流变成现在能够辅助理解和交流,这个会非常快。在某些场景口语交互或者日常的生活场景上,达到非常流利地交流,我觉得这也是在一两年的时间内可以做得非常好的一件事情。当然这里面也会涉及到更多的口语上的交互,又会和语音挂上钩,涉及到多种语音识别,包括和口音、设备关联在一起,会很复杂。但单纯在翻译这个层面,这个会非常快,现在已经做到有帮助。刘 洋:我个人觉得在「多场景即时对话翻译」领域至少有两个挑战。从方法层来说,最难的就是语言歧义性问题,这是自然语言处理所最大的挑战。人类语言和机器语言不一样,机器语言要求精准、没有歧义,比如 C+,JAVA。但是自然语言的歧义性很高,比如英文词「bank」,既可能是指「银行」,也可能是指「堤岸」。口语交互过程中歧义现象很严重。从数据层面来说,无论是语音识别、机器翻译还是语言合成,都是数据驱动的方法,系统性能严重依赖于标注数据的规模、质量和覆盖率。对于开放领域的即时对话翻译而言,目前还缺乏大规模、高质量、广覆盖的标注语料库。许静芳:我想这个挑战应该是对所有机器翻译团队都类似的一个有趣的现象是业内翻译做得好的团队大多来自搜索公司。搜索和翻译本身是密不可分的,这个密不可分首先是数据层面,语料的挖掘,搜索本身天然有优势,在这里面,其实都涉及很多自然语言处理、数据挖掘的问题,搜索积累的经验可以很快地应用到翻译上来。许静芳:首先,对翻译问题的理解、重视和投入问题,在不同的公司不同的阶段是有差异的。其次,聚焦在技术上面,NMT 从发展到应用在商业系统里也就这一、两年左右的事情,本身这个技术正处在非常快速的迭代的过程中。如果现在要去比较我们(搜狗)和百度、谷歌的差异,我们自己本身在翻译的模型,语料的挖掘,特别是深度学习模型很大,用的语料很多。在模型在分布式训练上,搜狗也有自己的创新。我们和谷歌最新的工作去对比,在某些方法上,可以看出我们比谷歌做得好,最终在中英两种语言互译的效果优于也验证了这个事情。搜狗比谷歌更有动力去做好翻译这件事情。许静芳:我觉得这是方法之一,但不是唯一的方法,而且层数变深了以后,在数据和模型训练,包括网络的结构和优化方法上,都应该去适配这样的网络结构,所以我觉得适当加深层数是一种有效的方法,但不是唯一的途径。翟飞飞:目前很多通用的 NMT 相关方法我们都在使用,同时依托天工研究院,我们和清华的机器翻译团队也合作进行了很多模型技术上的探索,取得了不错的成果,翻译性能稳步提升。机器之心:不同语言的语料规模差别很大,英文中的语料非常多,但中文语料就显得非常少。请问,是否能将 NMT 的研究成果应用在不同语言语料构建上,从而提升其他语言 NLP 研究水平?翟飞飞:我个人觉得是可以的,比如现在有各种各样的工作用来自动生成训练语料,但具体怎么操作,还要针对不同的任务,生成的数据能不能拿来使用,也需要经过评测之后,才能判定。。许静芳: 搜狗的机器翻译整体来说有非常好的调序能力,翻译译文流畅,利于理解。英文我们利用翻译的主场景是跨语言检索,所以书面语言的翻译效果比口语还要更好一些,英翻中比中翻英效果的领先优势更突出。许静芳:海外搜索的前身叫英文搜索,是 2016 年 5 月份发的一款产品。有几个背景,首先全世界的信息 10% 是中文,90% 是英文。不管是国情还是文化,英文的质量在某些领域是明显高于中文的质量,并且平均水平还是高于中文的水平。其次国人随着各方面的进步,有非常迫切打开眼界与国际接轨的需求。世界是平的,有这样的需求存在。搜狗 5 月份发布英文搜索是让用户搜索更优质的英文内容。由于各种原因,国内并没有特别好用的英文搜索,搜狗英文搜索是将优质的英文信息引入,给大家提供这样的入口,才能接触到这样的信息。在 5 月份上线的时候就附带一个小的功能,举个例子,在爆发魏则西的事件的时候,大家要查滑膜肉瘤,查细胞免疫疗法,大家知道中文的概念,而且也明白,更权威性的信息与知识在国外。但是当用户在用搜索英文信息的时候,首先遇到的第一个门槛就是不知道如何用英文拼写出」滑膜肉瘤」,」细胞免疫疗法」。所以搜狗英文搜索当时就有一个功能是允许用户用中文查询词,通过机器翻译自动翻译成英文查询词,再找到英文信息。当时面向的用户,是英文相对还可以,但在一些专业术语上需要补足的用户,尤其在不太熟悉的领域,构建英文表达很困难。但是如果返回英文结果,能读懂但比中文结果要困难。这个功能上线以后,在这个主打英文语言的搜索频道,中文的查询词占 20% 以上,而且随着时间的推移,还在逐步的提升。可以说这样的功能是很受用户欢迎,所以我们想把目标用户范围扩得更大一点,英文水平再差一点的同学,也能帮助他去阅读。进一步想法:把搜索结果能够翻译成中文,让不懂英文的用户在这里基本能看懂;懂英文的,借助机器翻译,也能更快到去找到他想要的信息。所以海外搜索的想法是在英文搜索发布不久,就已经萌生出来的,只不过翻译很难,搜索也很难,要把这两件事结合在一起,是难上加难。我们在英文搜索发布之后,大概花了四个月左右的时间,在建立团队的基础上,首先构建自己自主的机器翻译的能力,而且机器翻译的第一场景就是跨语言检索。许静芳:这是非常成功的校企合作的案例。2016 年搜狗捐赠清华大学打造天工智能计算研究院,机器翻译也是天工智能研究院下面的第一个合作项目,将搜狗的技术能力与清华刘洋教授的机器翻译团队的长期积累相结合充分发挥两个团队各自的优势,最终也取得非常好的效果。机器翻译的技术门槛很高,业内很多团队做机器翻译都是一年以后上线,或者两年以后再上线的,我们其实只花了四个月,这也体现搜狗在人工智能上的优势与决心。天工智能计算研究院是 2016 年成立的,但是这个研究院的前身是搜狗和清华计算机系的搜索技术联合实验室,这个实验室已经有 9 年的时间。搜狗一直以都非常支持学术界的研究,我们对学术界开放了最多的数据集,也有着广泛的合作,可以说搜狗在这方面是推动了国内相关方向的发展,也推动了全世界关于中文的研究。2016 年联合实验室进一步升级成研究院,还有很多其他项目正在进行中,相信马上会有一些其他的成果会出来。 (责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
葡京赌场 澳门永利 mg电子游戏 ——mg电子游戏 星际娱乐场 澳门威尼斯人官网网址 澳门威尼斯人官网 澳门葡京_澳门葡京娱乐网址 澳门银河娱乐场 澳门银河网址 澳门星际 澳门金沙官网 澳门永利娱乐 威尼斯人 澳门新濠天地 澳门葡京平台 官方_澳门葡京 澳门葡京官网网址 威尼斯人注册网 威尼斯人 JS澳门金沙网址 澳门葡京 澳门葡京娱乐网址 澳门威尼斯人 威尼斯人官网网址 澳门葡京赌场 -澳门金沙客服 时时彩网址 澳门永利 威尼斯人网址 澳门银河网站|网址 澳门葡京赌场 澳门威尼斯人官方平台