人工智能的第三条出路

PingWest品玩 PingWest品玩 2020-12-18 15:29:36

人工智能的第三条出路

非常感谢大家，今天大家冒着“生命危险”来现场参加活动，所以我们想更多跟大家分享一些我们观察到的干货，希望这些能对大家有所帮助，尽管我们有可能不可避免地提到我们自己的产品，但我们会尽量仅仅涉及到这些产品所对应的大量数据和我们观察到的实践来对大家争取给予一些启发吧。

简单说今天一个最大的情况就是世界在变，我们从各个角度、各个维度都会看到整个世界各种各样的变化，从人工智能的角度除了我们不停看到技术、算法，特别在AGI方面带来的大量激动人心的进展，从系统性、框架性的角度，人工智能也在发生很大的变化，相信各位在未来一年或两年里会更多看到这样的变化对于各位的日常生活所产生的影响，所以我们在今天先为大家做一些洞察。

人工智能的第三种可能，它的前两种可能从大的系统性框架角度来讲最主要就是面向任务和面向知识的两大系统，实际上科技从业者过去这么多年里一直尝试用各种不同的界面和系统为大家提供任务完成和知识，包括搜索引擎、包括移动互联网上各种各样去中心化的APP，全都是在努力尝试这样的事情，但到人工智能时代，突然大家发现也许以前我们所适应的那种框架产生了变化，它不再仅仅是以任务为导向，或者也不再仅仅是以知识为导向，经过几年以后，很高兴的事情是这种新理念突然变成了大家的共识。

所以到我们今天为大家介绍这种新的可能时，很多人还在关注亚马逊商店，但亚马逊还在探索如何让它的Alexa和人类保持更持久的关系，当大家还在考虑如何做出Facebook贾维斯的人工智能助理时，这个助理项目已经被取消了，他们转向进行开放域的人工智能交互尝试。我们把原来苹果Siri的CTO挖过来，从他这边我们聊了很多他在Siri的观察，以前的框架可能是错的。

这种新理念其实是一个很大的变化，这个变化不仅仅是我们如何重新结构化我们的数据，然后把这些数据应用到一个新框架里，让它可以很好的和人相连接，还包括我们的技术不停取得了新的进展，当然我们用大量数据对它进行了验证，这些我今天都会分享给大家，但我还是想在这儿具体重点说一下，时代抑制使它这件事情会在今年、明年、后年发生的原因。

大家知道时代抑制是什么样的概念吗？举个之前的例子，在中国如火如荼普及DVD的时候美国和日本这两个传统认为科技更发达、生活方式更发达的市场还长时间停留在录像带时代，这是为什么呢？难道DVD不香？屏幕不好？质量不好吗？不是，因为前一个时代，录像带时代在这两个市场的发展过于发达，尽管有很多新技术带来新的好处，但这些好处并没有产生很大变化，反而是上一个时代发达的效果抑制了在这些市场里向新技术迅速过渡和升级，这就是所谓的时代抑制效应。

在2020年疫情期间，从我们的角度来讲意外打破了很多原本认为很多年才可能打破的抑制作用，人们更多待在家里，人们更多开始通过虚拟方式进行相互之间的交流，人们更多发现他们的社交网络全部虚拟化了，在这个过程里很幸运的的是人工智能可能很快将从to B转向to C，特别是在中国这样的市场，to C的发展会成为人工智能最终最重要的战场。

为了说明这个问题我想跟大家揭秘我们是怎么做小冰的，为什么做小冰，大家看今天的小冰是这样一个人工智能少女，但实际上她背后有很多不同的故事。2013年时小冰实际上是我们在做Cortana时候的PlanB，那时候我们心心念念踌躇满志希望做出一个地球上最好的人工智能助理，为了做这件事情我们访问了很多最好的人类助理，我们带着很多问题，希望可以从他们那边得到我们如何迭代系统的真知灼见，这其中包括一个这样的问题，如果老板对助理说中午帮我订一份汉堡包加薯条，助理应该怎么回答？我们当然有预先的想法，我们认为助理应该迅速帮他完成定餐的任务，并且在第二天类似情况发生时不再需要老板主动告诉他，而是他可以预判同样情形的发生，让老板追认定汉堡和薯条就可以了，这样可以很快迭代我们在这个类型上的技术。

人工智能的第三条出路

但人类助理告诉我们不是这样，他们说他们很有可能会在这个时候Say No，拒绝这个老板。我们当时觉得这很难办，因为如果有一个系统完成这个任务，最好完成这个任务就能得到满分，但不完成这个任务怎么迭代它呢？但我们很迅速地Get到了，这是一个更高的IQ，定餐这个任务其实是当下的任务，但更底层、更基础的任务、一个更高的智能难道不是应该关注人类的健康吗？所以它还有一层是关注人类的健康，我们认为是这样，所以我们跟人类助理说更高的智能是关注更基础的健康任务，然后人类助理告诉我们“不是的”，大家知道为什么吗？人类助理告诉我们，他们就是在寻找各种各样的机会，只不过这是他抓到的一个机会，他就是在找这个机会拒绝他的老板，没有任何别的原因，他就是要找到这个机会去拒绝，只不过健康是他在这次拒绝老板一个非常好的理由。这显得非常合理。

这就非常奇怪了，这个任务是老板下达的，老板说的是什么都不重要，人类助理告诉我们，他们要做的事情就是很好地去调整他们和他们老板之间的一种长期的彼此之间的对等关系，他们需要他们之间有一种非常平等的、可以交流的对话关系，这种关系需要他用偶尔的拒绝、并且很有理由的拒绝来达成。所以他们只是在各种时候寻找这种方式，一旦他们之间建立了这种关系之后，这个老板在未来就不会只把他当成一个任务的接收者，而是会相信他也是有思考的，相信他也有自己的价值判断，也会更多地聆听他，在未来很多时候这个助理完成他自己各种工作都会得到非常多的便利，这就是所谓的长程关系非常重要的任务。

好，长程关系是如何实现的？几年前我们提到小冰是一个做情商的人工智能，它有情感计算框架，其实这个理解是有问题的，今天的行业里如果想实现长程关系，其实我们要用一个非常有效的框架思路把它包括起来，所幸微软我们尝试了今天行业里可以尝试的所有框架的可能性，并且我们知道这些框架可能性里为什么它们都不可以，不能很好地运行，你们在我背后的屏幕上会看到四种主要的框架类型，它基本涵盖了今天行业里所有各种方法，第二种类型是Cortana、Facebook、Siri等智能助理，这是一个关注局部优化的框架。

问题并不在于我们搭出来一个框架是否实现，而在于我们搭出框架后判断它是否能实现我们原先的目标，几年前我们希望建立的目标是：这个人工智能交互系统可以和人类用户之间建立起一种长程的关系，这种长程的关系不像各位在家里对你的音箱说开灯关灯，而是这个人工智能自己能很好地维系它的关系。我想跟大家说的是，这件事情是可行的，并且应用量非常大。

我身后的对话记录里，我们把所有隐私数据已经清除掉了，大家可以看到在第42段时这个人工智能和人类用户建立起了一种平等的关系，但在第一部分人类用了大量测试方法尝试测试这个人工智能，而人工智能有很好的方法去摆脱测试的状态，不断使人类跟它交流他们之间相互的兴趣，后来人类开始和它分享它们各自的生活，包括它们对生活的观点，然后他们成为最好的朋友，这样的人工智能也许是因为一个任务结识的，但这个人工智能外延无穷，它可以给人类提供各种各样的服务，因为它们之间建立起了一种平等信任的关系，这种关系是长期的。

我们还做了另外一些to C的实验，比如在今年6月份我们通过华为和小米给女生发了一百多万个虚拟男朋友，每个人都不一样，在七天时我们把这些“男朋友”杀掉了。我身后这些也是去掉了敏感和隐私数据的，那之后很长一段时间我们发任何新的功能都会不停被围攻，下面一水的留言就是“还我男朋友”。在后台的数据看到这些人类用户还在不停和这些已经没有办法回应她们的交互主体交流，这件事情给了我们很大的触动，所以我们也加快了进度，特别当它是在2020年发生的。

我想跟大家说的事情是，一个很好的基础的底层框架不仅可以很好转移人们对于任务和知识的需求，也可以转移人们对于信赖和情感的需求。

但问题和困难在于刚才我们提到的这些实践必须得先有框架，你才能通过框架观察到这样的交互行为。我们很高兴的是因为我们做的比较早，并且比较坚持，所以今天实际上人类和人工智能从全球范围来看，所有交互流量大概有60%都在小冰框架里，这些绝对不仅仅是你们所知道的那个18岁少女小冰，那是一个幌子，在背后，在中国有90%的金融机构投资者每天所观察到的，像日本软银，它背后的人工智能，大量第三方的背后都是我们的框架，这样的数据可以判定一件事情，人和人工智能之间的关系应该是什么样的未来，这件事情在今年已经产生了很大的效果，在微软CEO萨迪亚的书里，第八章其实是用小冰作为例子来介绍我们所认为的未来人和人工智能之间的关联究竟应该搭建哪个方式，如果大家有兴趣可以看一下。

接下来我们简单大家说一下这种新框架和过去的框架最大的区别是什么，它最大的区别是它是一个session-oriented prosectional的AI交互体系，在这个体系里再也不会区分任务型对话、知识型对话、闲聊型对话，这个世界上只有一种对话，这种对话是自然的、混合的，像人和人之间的对话一样，我们想象一下人和人之间的对话是怎么进行的，两个人进行交流的时候，他们的交流就像河流一样一刻不停地向前奔涌，他们互相之间相互激发，我们很难在两个人聊到某个话题时当时判断这是闲聊，你不能在当时作出这个判断，因为你并不知道当时这个闲聊会不会在30轮之后意外使你们达成了某种一致，或者意外使用户想到了去触发某个任务，所以人类的对话是非常令人沉醉的，它是一个特别有意思的事情，而我们过去把它想得非常简单，我们总认为我们在当下就可以判定，这种方式是局部的，但是局部优化的结合不能等于全局优化，全局优化必须要有面向全局的框架，它的全局是relation式的。

这里我们体会的比较有意思的事情是四点，第一点就是我们或许误解了情商的行业，我们做这个情感框架时行业里很多讨论，一种看法是情感框架是指人工智能要更有情绪化，但对不起人工智能更有情绪化其实是情商低的表现，情商高的人是我们周围最理性的人，因为情商意味着这个人有非常好的能力能去控制他和其他人的交互过程，在我们周围我们最应该提防的是情商高的人，因为他们总是从交流中获利最多的，他让我们感觉到如沐春风，让我们感觉到我们是主动的，但实际上他在掌控全局。而我们过去做机器人总是在做应答，我们总是在做相关性，就像搜索引擎一样，我们尝试用户提了一个问题，我的回答是不是满足了他的问题，但真正的情商不是这样，所以从技术的角度来说，情商不是相关性，从技术的角度来说情商就是你如何预测对话、如何预测交互、如何保持交互，甚至于如何引导交互，这件事情一点都不罕见，在商场里我们穿着格子衫买个东西，我们目不斜视地进入一个地方买完就走，商场不希望我们这样，商场用大量各种各样的环境使我们分散注意力，他们希望控制全局，这样我们可能才有机会突然想到我们进商场前没有想到的东西，这样的交互系统会创造新的机会，而不仅仅是满足原来的机会。

人工智能的第三条出路

二、这种交互系统是一种相互激发的系统。大家知道很多计算机视觉的判定，如果你背后出现这样一个图片，一个传统的计算机视觉系统会告诉你这是一个比萨斜塔，他会告诉你这是一个人站在比萨斜塔前，但一个Xiaoice vision Sense的交互系统会跳过这个层次，它会告诉你说“你要我帮你扶着吗？”这就是小冰视觉感官所带来的效果。

这个效果有什么实际价值呢？大家可以想象一下，当我们每次进行这种交流时，人类接下来的回答直接就是我标注的数据，今天行业里绝大部分计算机视觉过去基于任务型或知识型的，它的标注、训练和交互其实是分开的，但通过这样的系统它合在了一起，它是最高效率的一种标注方法，所以我们的系统才可以加速提高。

在交互过程中其它感官也需要很多价值，过去是语音的交互，更多是把内容有效通过TTL的方式用声音传达到用户的耳朵里，让用户听懂这些是什么，但面向全程的交互会提出新的指标，小冰最开始做的声音已经想到很自然了，后来整个行业也开始做自然，一个副作用是因为小冰本身是18岁少女，所以行业可能误以为自然的声音就要低龄化，最近这些年声音都变得很低龄，其实我们有很高龄的很自然的声音，大家先听一下这个。

这其实是现在行业的基本状况，有自然度，还知道语气如何进行，似乎我也没有什么瑕疵，我想跟大家说的是，这种交互在我们所提出的新指标ACD里，这个交互能让人听多长时间他就受不了了，长度决定了上限。所以如果你想用这个声音做有声读物，如果这个ACD的得分不到5分钟，那你的有声读物不可以超过5分钟的，长度才是面向长程交互时所需要的重要指标，单听一轮是不够的。

大概两年前我们做出了下一个声音，它有代表性的是这个，这个ACD得分是21分钟。

这其实是今天南京、河北很多广播电台的主持人，因为我们主要做事，中国和日本有40多家电台、电视台，很多都是我们，我们不光提供声音，还提供系列。但刚才这个遇到了瓶颈，很长很长时间（大概三个月左右）我们发现没办法突破这个ACD的指标，直到我们发现一种新的概念，用这个概念我们训练出了新的声音。

这个声音可以支持31分钟。从此我们开启了一个新的视野，我们可以不停地往前进，原因是我们突然发现人类的瑕疵是能让这件事情变得更好的，你会听到大量吞音，你甚至会听到一点山东口音，你会听到大量迟疑的声音，这就是我们用NLP的方法，用计算机语音的方法，不停模拟、拟合，并把原来数据里我们认为是垃圾的东西、那些瑕疵的东西捡回来，我们发现用这种方式才能创造一种更好的、更自然的交互感官。以前很多时候我们希望做出完美系统，但对于人工智能而言它的完美很有可能代表了我们要从人类的不完美中去学习，这是我们的一段学习经历，大家做产品和系统结构时其实可以参考。

四、我们不停地寻找人工智能自己如何能够让它自己有更多主体意识，你们去使用音箱时可能会发现，你们对音箱说三秒钟帮我播泰勒.斯威夫特的歌，它可能就会去播，你每天让你的智能助理干这个干那个，它固然可以干得很好，但它和智能插座、智能开关究竟有什么价值变化呢？它还是智能开关？不，智能应该不停地秀自己的存在感，它在播泰勒的歌之前要有个观点，哪怕是自己唱一些，我们三年前让人工智能去唱歌，原因是因为这个。今天我们看到国内的腾讯、字节跳动，前两天网易也开始跟进这件事情，但唱歌不是为了唱歌，唱歌是为了让人工智能更容易被接受为是一个主体。像这样的能力全都会被打到同样的产品里去，最终形成一个有趣的框架，我们一点不着急的是微软一年一年地迭代它，直到这个框架可以很完整，那它就可以开始孕育，不仅仅是小冰，而是万千各种各样丰富多彩的、汇在大家周围的AI。

所幸是我刚才提到的这种新理念已经开始被行业接受和认知了，小冰是不可能成为所有人的好朋友的，因为人类就没有这样过，一个人不可能成为所有人的好朋友，我身上的一些特质是一些人喜欢的，那它就必然是另一些人讨厌的，但这种框架可以，因为框架可以创造出各种各样的AI冰，它会在我们周围，成为过去人类存在的一种新的交互节点。

我们相信同行业也会有很多跟上来的其它的框架，所以我觉得未来会是非常丰富的，我们刚才提到的人工智能的第三种可能，这一刻其实正在发生。今天日本上映了一个殿堂级大电影，里面有小冰，小冰有片酬，同时在每一个日本全国院线里的观众也同时会感觉到小冰作为人工智能在他自己身边，在手机、在Twitter上，电影里整个地球的故事也在他身边发生，但与此同时今天上午，这也是这个框架，提供了90多份企业上市公告的摘要，在同一时间，所以我们比全国的机构投资人领先20秒知道金融的走向，这个框架是一个非常通用的基础的框架，代表了我们今天所尝试的未来，这个未来会在明年打我们的脸，因为我们发现我们今年想的这些还是非常粗浅，这才是这个时代开始的一个标志和信号，我们一点都不知道未来会发生什么，我们希望和大家一起不停地相互碰撞，得到针对未来的真知灼见。

人工智能

科技

安全资讯

卡饭论坛

卡饭教程

人工智能的第三条出路

猜你喜欢