首页 > 科技> 人形AI捉迷藏惊煞网友:飞檐走壁纯靠自学,表情丰富还会合作

人形AI捉迷藏惊煞网友:飞檐走壁纯靠自学,表情丰富还会合作 时间:2019-11-03 13:52:10   阅读2110

《鱼与羊的安妮》来自奥菲神庙

Qbitai

蓝色小人拼命躲起来,而红色小人则在复杂的地形中苦苦寻找,这不是生死对峙,不是cg动画,而是:

Openai的特工们真的在玩捉迷藏。

这是一项严肃的研究,旨在让人工智能学会合作和对抗。但是事先连游戏规则都不给,一切都要靠人工智能自己去探索。

由于显示效果看起来如此出色,网民甚至开始怀疑openai的身份。

一些推特用户说:

事实上,openai是一家动画公司。

一些网民表示怀疑:

哦,麦加,产品的质量,背景环境,甚至代理商的面部表情都很可爱。这是一篇科学论文还是迪斯尼的未来世界主题公园开辟了一个新的人工智能景点?

在这个已经开源的大规模人工智能捉迷藏游戏研究中,场景很酷,每个代理都有自己的想法:

这些团队相互合作,共同面对外界...

所有这些特工都活着吗?

在这个捉迷藏游戏中,小红人是一个带有小雷达的“幽灵”,可以在任何地方发疯。

三角洲红鬼也可以推箱子

小蓝人的任务很简单,就是跑。

与有自己传感器的鬼魂相比,他们的技能是使用盒子之类的物体来制造障碍并把它们锁在里面。

起初,人工智能根本不知道他们能做什么,他们只是跑开了,出于"本能"。

但是在玩了2500万场游戏后,这个小蓝人学会了通过移动盒子和建造避难所来保护自己不被发现。

魔鬼比路高一英尺。在另外7500万场比赛后,红魔将利用坡道闯入避难所!

在又损失了1000万英镑之后,小蓝人建造了另一个避难所,并知道他们会沿着坡道前进。

此外,人工智能的人不仅独自战斗,还学习团队合作。

看看小蓝人的合作水平,真是流畅,无缝衔接,也很注重策略:

什么,你认为地形太简单了吗?经过近5亿次培训,人工智能解锁了更复杂的版本:

这群人工智能,真是太显摆了。

同样,以上不是cg,不是cg,不是cg。

这是openai的一项新研究。通过多智能体竞争,如捉迷藏和标准强化学习算法这样简单的目标,研究人员发现人工智能创造了一个没有事先学习规则的自我监督的自动课程。

这不仅包括几轮不同的应急策略,还包括复杂的工具使用和团队协调。

所谓的课程可以被视为一系列挑战。自动自动课程意味着每个挑战都是由系统自己产生的。(这一概念是由deepmind提出的,本文的地址在文章的末尾。)

达美人工智能在培训过程中发现了多达六种独特的策略

此外,随着环境变得更加复杂,人工智能的性能甚至更强。与其他自我监督强化学习方法相比,这组人工智能表现得更像人类。

Openai称之为无目标探索。

人工智能没有预先学习捉迷藏的规则,而是随着他们对游戏世界的理解而自由发展。

为了实现这一点,研究者使用以实体为中心的观察,并采用注意机制来捕捉目标层信息。

在设定的环境中,每个代理根据自己的观察和隐藏的记忆状态独立地行动。

每个对象都被嵌入并通过一个被遮挡的剩余自我注意块,其中注意力集中在对象上,而不是随时间变化。

直接位于代理前面但不在其视线内的对象将被屏蔽,以便代理无法捕获它们的信息。

通过自我游戏和近端策略优化来训练代理的策略。在优化过程中,代理可以在其值函数中使用关于遮挡对象和其他代理的特权信息。

此外,大规模培训效果显著。增加批量可以大大加快收敛速度,并且不会对样品效率产生太大影响。

人工智能是否如此训练有素?

用一套智力测试练习手比说不练习假手要好。

Openai研究人员设计了一套涵盖五种基准智力测试的试题,主要分为两个领域:认知和记忆。

结果表明,在锁定和返回、序列锁定和蓝图构建三个任务中,在捉迷藏环境中预先训练的人工智能表现优于基线方法。然而,在目标技术和住房建设方面的表现更差。

三角洲蓝线是人工智能在捉迷藏环境中预先训练的

这项研究吸引了大量网民观看。在不到一天的时间里,推特已经超过了2000个赞。

一位软件工程师哀叹说,这项研究直接指出了代理对齐问题的困难。即使在捉迷藏的简单回答任务中,人工智能也可能有意想不到的行为。

hackernews上的网民表示,更酷的是,这项研究可以应用于现实世界的机器人,让它们学会克服挑战。

Openai自己站出来说出来,这项研究导致了四个方向的研究。

首先,证明了多智能体自动化过程是导致智能体决策出现许多不同混合阶段的原因之一。

第二,验证了在真实物理环境中模拟智能体行为时,多智能体自动课程可以训练类似人类的技能,如用工具实现目标。

第三,该研究还提出了一个在开放环境中评估代理的框架和一套针对代理的有针对性的智能测试。这对代理的未来研究具有一定的参考意义。

最后,本研究还开辟了环境的来源和建筑环境的代码,这将促进基于物理环境的多智能体自动化课程的进一步研究。

简单的规则、多智能体竞争和标准的大规模强化学习算法可以激励智能体在没有监督的情况下学习复杂的策略和技能。

展望未来,研究的意义不局限于理论研究阶段或游戏场景,而是涵盖日常生活的方方面面。

外国媒体venturebeat在报道时引用了deepmind Hassabis对ai游戏的看法:

游戏ai是ai将军的垫脚石。我们研究这些游戏的真正原因是,它是开发算法的一个非常方便的测试场所。

我们正在开发一种可以转化为现实世界的算法,以解决真正具有挑战性的问题,并帮助这些领域的专家。

无论是deepmind还是openai正在使用游戏来训练可以应用于真实场景的技术,它也创造了一个小世界。

这篇论文是由openai的bowenbacker、ingmar kanitscheider、todomakov、yi wu、glenn powell、bob mcgrew和google brain的igor mordatch撰写的。

伯恩贝克大学的学士学位和硕士学位都是电气工程和计算科学专业。自2017年12月以来,他们一直作为研究科学家在openai工作,主要专注于多智能体研究。

作者的团队还包括一位年轻有为的中国研究员,易武,他是清华大学2010级姚班研究生,也是中国图灵奖获得者姚期智教授的学生。

作为一名“全国一半人才聚集在清华,一半人才在姚班”的姚班成员,吴仪在本科期间曾在微软、脸书和今日头条等大型互联网工厂实习,并拥有丰富的实习经验。

2014年至2019年,吴一本去加州大学伯克利分校学习人工智能。他的主要研究方向是强化学习、自然语言处理和概率编程。

吴仪在各种人工智能会议上发表了十多篇论文。他的研究发表在ijcai 16、aaai 17、emnlp 17、icml 18、nips 18和其他会议上。今年,吴仪还参与了两篇aaai 19口头论文的研究。

吴仪也在各种比赛中留下了自己的印记。他也是acm/icpc的北美冠军,世界总决赛银牌获得者和102010银牌获得者。

根据清华大学交叉信息研究所的网站和吴仪的简历,吴仪将于明年就职。这位28岁的年轻有为的学生欺凌者将担任清华大学交叉信息研究所的助理教授。

姚班的出生和返回姚班不仅是收获季节,也是一个代代相传的好故事。

吴仪的简历:

https://jxwuyi.weebly.com/contest-and-interest.html

博客:

https://openai.com/blog/emergent-tool-use/

代码:

https://git hub . com/openai/多代理-紧急情况-环境

hackernews:

https://news.ycombinator.com/item? id = 20996771

Venturebeat报告:

https://venturebeat . com/2019/09/17/open ai-and-deep mind-teach-ai-to-work-as-a-team-by play-hide-and-seek/

论文《自发和社会互动中创新的出现:多智能体智能研究宣言》;

https://arxiv.org/pdf/1903.00742.pdf

-完毕-

真诚的招聘

量子比特正在北京中关村招聘编辑/记者。期待有才华和热情的学生加入我们!详情请回复qbitai对话界面中的“招聘”一词。

量子位qbitai

跟踪人工智能技术和产品的新发展