当前位置:系统粉 >   IT资讯 >   微软资讯 >  从微软出来的这个技术团队, 要做“智能文字”

从微软出来的这个技术团队, 要做“智能文字”

时间:2017-09-15 来源:互联网 浏览量:

768创意产业园据说是孵化行业独角兽的创业园区,估值超过10亿美元的知乎和摩拜单车,以及曾获得12亿融资的春雨医生都是出自这里。

爱特曼(Atman)在768创意园的一座小楼上,外部看起来其貌不扬。但巧合的是,楼下是春雨医生,它的邻居是语音交互领域的蓦然认知。一楼的“为人民服务”让每一个进出小楼的人为之侧目。

从微软出来的这个技术团队, 要做“智能文字”(1)

蓦然认知的CEO戴帅湘,是前百度主任架构师;

春雨医生的原CEO张锐,前网易副总裁,网易公开课、网易新闻客户端、网易云音乐等移动互联网产品总架构师;

爱特曼的CEO马磊,AI语音语义领域的专家。曾就职于微软研究院和微软搜索技术中心(微软必应)。Winphone自带的中(简繁)日韩手写字体识别是他从零开始写的代码;Techfest上大放异彩的基于运动传感器和视觉识别“空中手书”由他主导研发;同时他也曾是微软“小娜”及相关产品的资深架构师。

若说它们共同的基因,无疑都是学院派天之骄子带领的技术创业。过去一年,IT耳朵采访了超过50家人工智能领域的企业,我们能够体会到人工智能领域中国的技术大牛很多。可以想象,在人工智能引领的第四次工业革命中,我们将见证这些技术创业企业的崛起。

耳朵君在三楼见到了爱特曼的 COO 阮晓峰。作为一位70后,阮总也是眼镜 工程范,说话速度很快,但还好,采访过程中他没有完全从技术角度作答,因此整个采访还算顺利。他解释到,之前马磊在接受一些媒体采访或者跟投资机构交流的过程中,谈到技术方面的时候,经常遇到沟通困难。

为什么选择做智能翻译

智能翻译技术没有专利,这是阮晓峰的第一个观点。

他认为现在人工智能的许多技术都是通过发表论文来展示的,这个行业算法工程师很少。因此一方面技术公开也未必能采用,另一方面,人员流动很大。很多时候都是熟人,所以几乎很少产生专利技术方面的纠纷。

所以,智能翻译行业拼的是算法技术和大数据。

CEO马磊以及CTO刘炜都是来自于微软的技术团队,谈起创业契机,其实和许多的AI初创公司类似。2015年的时候,语音和图像技术公司都很活跃,马磊感觉人工智能风口起来了,于是说服了在bing带团队的刘炜,一起出来创业。

为什么选择做智能翻译?

用阮晓峰的解释就是:发展前景空间大;通过垂直领域避开巨头;用技术对现有行业“降维”创新。

马磊认为谷歌、微软、Facebook在翻译领域已经很强,他深信未来三到五年,AI将在智能翻译领域取得重大技术突破,因为距上一次谷歌机器翻译取得的技术突破,已经经过了十年。

机器翻译的历史经历了两个阶段。

第一个阶段是分词算法,通过事先在机器中灌输大量语法和词汇,然后按照句子进行对照翻译,这与语音识别早期切分音节较为类似。

第二阶段是2004年,谷歌开发了“语义相似度算法”,先往机器里输入大量文本文字,再比对平行语句库找出无数相互关系,通过穷举得出最佳翻译结果。

简单来说,目前智能翻译的主要技术手段是计算机辅助翻译(Computer aided translation,简称CAT)。

以下内容摘自百度百科:

CAT技术的核心是翻译记忆技术,当翻译在不停地工作时,CAT则在后台忙于建立语言数据库。这就是所谓的翻译记忆。每当相同或相近的短语出现时,系统会自动提示用户使用记忆库中最接近的译法。用户可以根据自己的需要采用、舍弃或编辑重复出现的文本。

另一个重要组成部分则是术语管理。广义的说,翻译中出现的任何词汇,如果有重复使用的必要,都可以作为术语进行保存,保存的术语集合则成为术语库。术语库也可以重复利用,不仅仅是在本次翻译,还可以在以后的项目或其他人的翻译工作中重复使用,不但提高工作效率,更重要的是解决翻译一致性问题。

爱特曼开发的在线CAT系统,通过对海量文件的整理,建立内容记忆库,术语库,这些数据库的整理,以此来提高翻译效率。爱特曼在医药、科技、法律、时政新闻、专利,这五个垂直领域逐渐建立了自己的优势。并推出了TransGod企业版和个人版。

从微软出来的这个技术团队, 要做“智能文字”(2)

在阮晓峰看来,智能翻译在TO B端的需求在于,

第一,数据安全需求。有许多跨国企业在翻译文件的时候,有保证其商业秘密的需求。比如,专业代理海外技术专利的翻译,新药申请的翻译。这些翻译系统不能用谷歌这种大众翻译平台,而只能将翻译系统建立在内网。

第二,定制需求。

很明显,大平台不会针对个别用户定制。而爱特曼可以根据客户自身的数据,进行二次开发和整合,以此来提升翻译准确率。

此外,爱特曼的CAT系统还有两个优势,其一是文件格式的转换。将各种格式的文件,在翻译的时候,在爱特曼的平台上统一格式;其二是,爱特曼的CAT系统可以处理多人协同翻译。

“降维”与创新

阮晓峰自豪地说,爱特曼的技术团队拥有人工智能技术方面的专业性和认知完整性。这也是爱特曼跟其他翻译公司的不一样。可能过几年,国内那些翻译企业还在原地,但爱特曼不会只会守在翻译领域。

所以,一群技术天才选择做智能翻译,颇有点“降维”的意思。

阮晓峰说,翻译行业是一个很苦逼的行业。许多译者早上一起来,就欠甲方数千字的译稿;另一方面,他们对于跨行业和新兴的词汇,缺乏学习时间。

专业翻译学校出来的人才只有不超过10%的会进入翻译行业,很多优秀的译者流失了,这是一个净流出的行业。(尽管阮再三说这个不提也罢,但同是文字民工,耳朵君感同身受。)

传统翻译的流程是:翻译材料,校正稿件。而由于准确率问题,目前智能翻译的工作只能是翻译材料,校正稿件还需要人为。

所以,正如爱特曼的slogan“让译者有尊严”,人工智能技术是解放译者,把低技术含量,重复性的工作交给爱特曼的TransGod,让译者做更专业的事,同时有更多的时间来提高专业程度,学习更多领域的专业翻译知识。

阮晓峰提到一个案例:爱特曼的某个译者用户采用TransGod之后,翻译一篇5000字的内容,只用两个小时,而平时需要4个小时以上。

另一个则是TO B的案例:某个跨国药企,它们的翻译中心业务需求特别大。经过对国内几个翻译公司在数据安全和机器翻译的效率以及完整的开发能力这几个方面进行对比、评测,最终选择了爱特曼。而爱特曼将利用其百万级别的数据,定制开发内网机器翻译系统。

“文字智能”才是爱特曼的星辰大海

如果说做智能翻译只是起点,阮晓峰向我们阐述了他们更大的方向:做文字智能。

“文字智能”是一个很抽象的概念。它其实是人工智能在语义识别方面的进化。阮晓峰认为文字智能的未来包括不少领域,他举了两个例子:

1、分类。比如一段文字可能涉及:科技、情感、文学、体育......现在的翻译只能翻译表面意思,却无法识别属于哪个范畴,并与之关联。如果人工智能系统如果能做到,就是让“文字”智能化。

2、匹配。两段文字的内涵,如果能够匹配,就可以进一步进行对话、内容推荐和推送。比如,A说关于巴萨和皇马的比赛,B说关于西班牙足球,人工智能可以对两者的语义进一步匹配。

“文字智能”将在许多细分领域被应用。比如,如果某品牌要进入一个全新的国家或者地区,它需要通过收集大量的信息和数据,做当地的舆情分析。这也是“文字智能”可以实现的工作。

从微软出来的这个技术团队, 要做“智能文字”(3)

结束语

爱特曼有很清晰的发展方向,正如阮晓峰说:技术是我们最重要的竞争要素,尽管商业模式也很重要。我们三个人的年龄分别是81年,80,71年,工作经历都超过十年甚至二十年,知道可以做什么,不再急急如火,所以我们怀着长跑的心态来创业。

或许这也是爱特曼获得著名VC北极光创投青睐的原因吧。

我要分享:

最新热门游戏

版权信息

Copyright @ 2011 系统粉 版权声明 最新发布内容 网站导航