当前位置: 河北网首页 IT频道 it业界 正文

【深蓝】专访三角兽:开放域聊天是终极理想,将打造虚拟偶像

时间:2017-11-07 15:22河北网(www.he-bei.cn)
河北网(www.he-bei.cn)权威媒体 河北门户

导读

人工智能正以看得见的速度成为人们热爱谈论的话题,人工智能也正以看不见的速度逐渐渗透普通人的生活。

从大部分人看不懂的理论到每一个人都会使用的产品,技术到应用的转化,通常与工业界的探索息息相关。

在人工智能热潮大背景下,智能驾驶、NLP/人机交互、图像识别、语音识别、大数据、智能硬件等不同分支都涌现了大量先行者。

无论是大公司还是初创企业,在追逐自己商业梦想的同时,它们的努力,也将影响人工智能落地日常生活的具体形态。它们是将人工智能与普通人连接起来的桥梁,是窥探人工智能发展的一个窗口。

为此,深蓝将对人工智能不同方向内最具代表性的公司进行报道,了解技术,剖析商业,一同看清潮水的方向。

语言是人类沟通的重要工具,是人类传达信息的基本载体。NLP(自然语言处理)旨在帮助机器理解人类的语言,通过理解语言来理解人类的想法和意图,是人工智能中最具魅力和挑战的问题之一。NLP的进步,会直接影响人类与机器沟通的效果。

因此,深蓝的第一个系列报道将以NLP为主题,我们选取了国内NLP领域最具代表性的企业,围绕他们的技术路径、商业模式,进行深度解析。

NLP系列第二篇|专访三角兽:开放域聊天是终极理想未来将打造虚拟偶像

左至右分别为亓超、马宇驰、王卓然

基本信息

成立时间:2016年2月

产品能力:开放域聊天、任务驱动的多轮对话、跨域中控、智能问答

团队情况:

创始人、CEO王卓然,英国 UCL 博士,前度秘中控决策负责人,前东芝欧洲研究院对话系统组技术负责人。

创始人、CTO亓超,前微软小冰、百度度秘开放域聊天技术创始人。

创始人、董事长、COO马宇驰,曾在 Viacom、奥美公关、Amway China 负责广告、公关和品牌。

融资情况:

2016.4,天使轮,1000万人民币,洪泰基金和天善资本

2016.9,Pre-A轮,2000万人民币,君联资本和赛富

2017.1,A轮,5000万人民币,东方网力旗下博雍基金、恒生电子和索道资本

文/深蓝 韩依民

三年前,当亓超从时任微软Bing中国首席研发总监的景鲲手中接下后来被称为“小冰”的任务时,没有人能想到人机交互会成为时下最热门的创业方向之一。

在小冰之前,一度风靡人人网的小黄鸡曾短暂的将人机交互带入大众视野。小黄鸡在社交网络上受到的追捧,让微软中国产生了做一款类似产品的想法。

创造小冰,本意是为扩大微软Bing搜索在中国市场的认知度,它被寄予了能产生病毒式传播效果的期望,为了提升营销噱头,团队还邀请“奶茶妹妹”章泽加入任实习产品经理,并对外表示希望小冰能成为一名类似章泽天的萌妹子。这些精心的安排让小冰问世后在传播上收到了不错的效果。

小冰的命运并没有仅仅停留在营销功能上,这款人机对话产品已经成为微软中国在搜索之外讲述的另一个重要故事,它被认为是下一代操作系统,在微软中国之后,百度推出了自己的度秘。如今,小冰和度秘是国内最为知名的两款语音交互产品,在国外,亚马逊的Alexa也已经通过Echo走进更多人的生活。

技术进步的浪潮是小冰们受到追捧的根本原因,深度学习的突破,让机器听清、看清甚至理解人类都变得更加可行。

但回到小冰故事的开头,算法工程师亓超在技术路线上的决定,为小冰得以成功提供了现实基础。“抛弃原来的方法重做,一开始就遵循两个原则:大数据和深度学习。”

亓超

半年时间里,亓超与其他四位前端工程师,从第一行代码开始创造了小冰。彼时为小冰定下的技术路线,正是当下最热的人工智能的核心,这为亓超在人机交互领域赢得了知名度。

在从微软小冰团队跳槽到百度,又从百度度秘团队离职后,亓超选择了创业,他现在的身份是人工智能初创公司三角兽的创始人,与他一同创业的还有同样来自百度度秘团队的王卓然。

亓超的前同事与前前同事组成了三角兽的核心技术团队,既往经验成为他们决心攻克最难挑战的自信来源,同时也是三角兽确立技术、产品、商业模式发展方向的重要参考。

攻坚开放域

创业伊始,三角兽就把开放域聊天当做了重点攻克对象。

不限定领域、不限定目的、不限定话题,让人与机器之间真正像两个朋友那样对话,被称为开放域聊天。

在三角兽刚刚装修完的新办公室,深蓝见到了亓超,从去年2月创办到现在,三角兽的规模在迅速扩张,为此,他们不得不新装修了一块场地,以容纳正在壮大的队伍。

开放域聊天是三角兽技术团队当前的工作重点,亓超介绍,“三角兽希望下一步是做有内容、有营养的对话,我们希望从原来基于内容的对话聊天变成基于兴趣的聊天。”

这其中的技术难点在于,当用户与系统进行没有明确目的的闲聊时,系统需要根据对全网聊天数据的学习和理解,对任何话题作出高相关性回应,保证对话持续进行。

换言之,用户输入的信息不限定领域,用户给出的信息可能天马行空,机器在结合上下文语境准确理解用户语义的同时,需要从庞大的数据库中,给出准确的回应,这要比问答、垂直领域的实现难度高出许多,因为在问答或者垂直领域对话中,限定了用户只能与机器聊特定领域的话题,而机器也只能输出特定领域的答案。

构建知识图谱,以及标注和结构化特定域数据进行深度学习,是行业当前在问答、垂直领域对话中通行的技术方法,但这些技术方法很难解决开放域聊天的问题。

亓超介绍,开放域聊天对技术架构、数据量级都有非常大的改变。在数据采集范围上,三角兽从公开网络上抓取了500亿组的数据集,数据量非常庞杂,因此用人工标注处理数据的方法是不可行的,必须通过深度学习让机器去发现规律。这正是实现开放域聊天的最难点。

“上千万的语料是很难(人工)标注的,尽可能让机器自动学习到一些规律,在之前需要人来设计很多特征,现在它有一部分的工作是自动学习一些标识,完成了人原来定义的一些特征和状态,这也是深度学习很重要的一个体现。”

复制的可能

正是因为实现真正的开放域聊天是技术难度比较高的事情,很多NLP方向的AI初创公司均选择以问答或者特定域对话为切入口,但三角兽并不打算这么做。攻坚开放域除了NLP算法工程师对挑战难题的天然热爱,更重要的原因则是来自用户需求的反馈。

身为一名资深的NLP算法工程师,亓超有时候会跟同事开玩笑:我看到的语料可能比你读的书要多,“你要不看语料,你没有办法理解这个事情应该怎么做,做到这样的程度你才能够有积累做这个事情。”

三角兽创始人、COO马宇驰和CEO王卓然是高中同学,而亓超是王卓然在百度的同事,三角兽的其他几位技术合伙人均来自微软和百度。

小冰以及度秘的经历,让亓超积累了大量经验的同时,也让他及其团队认知到用户对于人机交互的最核心需求是什么。

在亓超看来,很少有人会想到去问机器“天空为什么是蓝色的”、“兔子的眼镜为什么是红色的”,类似“谢霆峰的前妻演过什么电影”本身就是伪需求。而这两种问题,恰恰是问答及垂直域对话的典型演示案例。

“你不能认为问答是对话系统的全部,很少有人这么去问,实际上问答类的需求在成型的对话机器人只占到1%到2%的量级。”亓超介绍,“我们希望让机器人更主动抛出一些东西,而不是被动等着你来问我一些知识的问题。”

同时,亓超认为,类似“谢霆峰的前妻演过什么电影”的提问也并不符合人类的表达习惯,而且,利用知识图谱实现特定域对话有非常大的局限性,首先当数据量大到一定程度,实体与实体间的关系是一个爆炸组合,想建立一个完备的图谱,用一个图谱来描述整个世界并不可能;而一旦用户的提问超出了知识图谱的范围,那机器人就无法回答下去。

从过往数据来看,聊天意图占到对话中所有意图的60%、70%以上,意即用户问100个问题,有60或者70个问题属于聊天,“这是诱导我们要发力做这个事情的一个原因”。

同时,开放域聊天的技术实现方法可以复制到其他领域,意义重大:当你攻克了最难的问题时,其他的困难也就迎刃而解。

打造虚拟偶像

事实上,三角兽已经开始尝试将开放域聊天打造成一个标准产品对外销售,这样可以避免像传统2B生意一样,围绕客户一个项目一个项目的做,更易规模化。

对三角兽而言,输出产品、对外销售落地不仅是获得商业回报的必经之路,同时也是通过实践获得反馈不断完善技术的重要方法。

“我们不会闭门造车,要在实际的场景遇到实际的问题,我才知道我要解决什么问题,需要发展什么样的技术去解决这些问题,才知道技术迭代的方向,而不是闭门做demo。我们如果不把技术落到实际,不知道实际需求是什么,也不知道技术落地会产生什么问题,会回收一些伪需求,这个不实际。”

基于完善技术能力的出发点,三角兽非常注重落地,而在常见的2B端业务外,三角兽还有2C端生意的设想。

企业服务、IoT与泛娱乐,是三角兽为自己定下的商业版图。

三角兽官网呈现的产品方案

据马宇驰介绍,目前他们已经获得了包括光明网、新世界、恒生、新浪等客户,输出的能力既有开放域聊天、多轮对话也有中控决策。

企业服务是当前人工智能初创公司的最主要业务模式,将语义技术植入到现有场景中让机器人拥有交互的功能,以及智能客服,是三角兽企业服务的两大主要场景。

IoT业务则主要包括与手机厂商、电视厂商、智能音箱厂商等合作,输出语义理解、垂直领域多轮对话等能力,为硬件装上大脑。

企业服务及IoT业务均不难理解,它们也是当下AI初创公司的主要商业模式,但在三角兽的商业规划中,未来,基于开放域聊天能力,他们希望能够打造出虚拟偶像,以技术为切入点,进入泛娱乐领域。

马宇驰介绍,之所以想做泛娱乐,一方面是因为2C业务体量更大;另一方面则是随着粉丝经济、二次元经济的发展,虚拟偶像的市场已经存在并且具有很大想象空间。

目前,泛娱乐业务仍处于规划和设想阶段,技术实现程度以及IP是限制业务落地进展的主要原因。但基于技术上的积累、与合作方的顺畅沟通以及团队的能力,马宇驰及亓超均怀有很大自信。

“我们已经慢慢在构建自己的壁垒。”

相关新闻:

责任编辑:美景
0

免责声明:本站部分内容来自互联网,仅为传播更多信息为目的,一切权利归原作者所有,如有侵权请联系本站删除。

Copyright (C) 2012-2012 河北网版权所有 备案编号:冀ICP备09014245号

未经河北网书面特别授权,请勿转载或建立镜像

违者依法追究相关法律责任