当前位置:主页 > 365bet赔率体系 >

MiserableOpenAI刚刚在DOTA 2被人类击中并被谷歌多巴

时间:2019-03-11 02:37 作者:365bet注册
原标题:悲惨!OpenAI刚刚被DOTA 2中的人类击中,并被谷歌多巴胺击中。
源/ AI时间/ A Jing
昨天,淘汰DOTA 2世界顶级锦标赛Ti 8(国际DOTA 2锦标赛)进入第3天。除了中国队VG令人遗憾的是,在游戏中感叹的OpenAIFive的战斗很痛很痛队成为亮点。这次OpenAIFiveLa的第一场失利已经结束。
中国记者联合会称,“这意味着控制人工智能的能力尚未得到改善。”
事实上,openAI从一开始就是一个笑话。
去年,伊隆·马斯克和Sam奥特曼是,在Dota的2,TI7,这将是每年举行一次的情况下,他创办了人工智能公司OpenAI为了防止人工智能与主人公的滥用。世界级
但有趣的时间并不长。
前两天,AI对OpenAI五的希望是在两场比赛中失去连败结束时,我们提前完成了旅程吧。
在本月初,他轻松打破了一组五个半专业人士的7000分。17天之后,他失去了一个专业的团队,现在的经验AI DOTA2玩家在小学在海边的人说是跌宕起伏。
当“会自卑心理是愚蠢的,是当......谁的声音是荒谬的吗知道OpenAI的机制”霞衣和问卷调查记者创建文档的钟琦,他们就开始笑。
AI是Go游戏,在多人在线游戏中,我们承诺人脸无法承受。最终,团结才是力量。
OpenAI被击中,一切都是密集的学习锅。
根据强化学习(LR)框架的发展,AI可以在Moba游戏上竞争。
在机器学习中,我熟悉有监督的学习和无监督的学习,重要的课程是强化的。
监督学习是当你正在学习喜欢,但有迹象表明,知道它的方式,在许多实际问题,如国际象棋,有成千上万的组合导师。可能的结果
目前,如果你第一次尝试做一些没有标签的事情,强化学习会得到结果。如果结果不正确或不正确,您可以通过调整先前的行为然后不断调整它来学习算法。
“当你想毁了房子,你还是喜欢有一个没有被训练一只小狗,你会减少美味的食物(处罚)的量。”希望他很好,他的美味的食物量在起居室加倍(奖励)混乱是一种不良行为,“技术博客ALICE解释道。
两种学习方法都学习从输入到输出的分配。监督学习是两者之间的关系。什么样的输入类型相对应的输出类型可以是告诉算法,通过强化学习是机器,这是决定坏与否这种行为是否良好的反馈功能。
特别是DOTA2,复杂的胜利元素,因为特定的游戏,是复杂的,openAI现实也是如此,人类玩家无法回避的是发挥它。,机器人没有一般的良知。
强化学习机器人不玩DOTA 2
在棋盘游戏,但你可以看到所有的AI操作的对手,在比赛中的Dota 2,该河流的安静的龙,如果你不能成为玩家看到的AI,AI不知道它。此外,无论正在进行的行动如何,国际象棋都有多达70种可能性。Go是400,Dota 2是20,000。
“所有调整人工智能需要大量时间,这意味着对算法有很高的要求。”几位媒体评论道。
然而,算法的深入学习本身并不是很稳定。
“OpenAI OpenAI健身房强化培训,学习环境,因为它不是稳定的,你有很多的不满,更新不及时......”和Xinzhiyuan评论。
这些问题本质上是算法的问题。 具体来说,通过在DQN中引入回放内存,您可以使用以前代理的经验。通过大量的分布式培训,您可以跨工人分发学习过程。分布式方法允许代理模拟完整的分布并学习更完整的世界而不是建模期望。
然而,“这种进步需要快速的迭代设计,没有明确的方向,并且会损害已建立方法的结构。”但是,大多数现有的RL框架不能同时提供灵活性和稳定性。重复RL方法,探索新的研究方向,但马上会不会导致显著的优势,那你要复制的结果的现有框架是太需要花费很多的时间的情况下。它可能导致后来的科学再现性问题。“
先天性缺陷用于解释openAI,但算法世界实际上并没有减少。
8月28日,Google在博客中推出了基于TensorFlow的最新强化学习框架。
“这个新的强大框架将促进深入学习研究的基本进展。”
谷歌多巴胺,争取人工智能
多巴胺是一种神经传递素,可以帮助细胞传送脉冲状的化学物质,大脑的这种分泌有关欲望和人类的情感,讲述了一个快乐的信息和热情。addictive.Arvid卡尔松是,多巴胺并被鉴定为来自大脑的信息的发送者,它被授予诺贝尔医学奖,2000年他。 新的谷歌架构,灵活的RL,稳定的研究人员,和可重复性的设计是为了提供一个开源框架,还包括一组队列演示了如何使用这个框架是的。
“作为多巴胺的名称,新的框架看起来令人兴奋。”昆腾公布了一个赞美。
以下是Google AI博客的翻译(来自机器中心)。
易于使用
我们提供的代码非常紧凑(大约15个Python文件)并且有很好的文档记录。街机模式(ALE,成熟,易于理解的参考点)和学习环境,基于价值四大代理商:DQN,C51,适当设计彩虹智能精简版,以及隐位数网络智能体(谷歌这个简洁的功能希望研究人员了解代理的内部工作原理,并使更快速地测试新想法变得容易。
循环
由于Google强调详尽的学习研究的可重复性,因此Google提供了完整的代码证明。此外,我们的实验框架遵循Machado等人(2018)推荐的方法,用于使用ALE标准化经验进行评估。
对于基准新的研究人员,它提供了一个完整的训练数据,四家代理商,其中包括在Python泡菜文件的形式60场比赛ALE和兼容性(代理商那些在谷歌框架受训)。谷歌(用于与其他框架的培训剂比较)还提供了一个网站,可用于研究人员快速可视化所有代理人的培训生涯中的60场比赛。Seaquest的四个Google代理培训(Seaquest是与ALE兼容的Atari 2600游戏之一)。
4人谷歌运行代理程序的Seaquest,x轴表示的重复,(实时游戏4.5小时)的播放每重复一次万帧,y轴在每个游戏中获得的平均得分。阴影表示五次独立运行的置信区间。
Google还提供使用这些代理,原始统计记录和TensorFlow事件文件的详细训练网络,以显示Tensorboard。相关方向:https://github.com/google/dopamine/tree/master/docs#downloads 谷歌研究人员没有想到为了使用该框架的灵活性和易用性,以帮助尝试新的想法谷歌是在研究使用框架,快速和高度的灵活性,很多的想法我可以重复做爱。请使用此框架。
小编精心组织的文件
开源框架资源
多巴胺谷歌博客:
Https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html
请下载dopamine github。
https://github.com/google/dopamine/tree/master/docs#downloads
Korabusu:
https://github.com/google/dopamine/blob/master/dopamine/colab/README.md
游戏训练显示页面:
https://google.github.io/dopamine/baselines/plots.html
相关信息
ALE参考点:
https://arxiv.org/abs/1207.4708
DQN(深思):
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
C 51(ICML 2017):
https://arxiv.org/abs/1707.06887
彩虹
https://arxiv.org/abs/1710.02298
隐式分位数网络(ICML 2018):
https://arxiv.org/abs/1806.06923
其他重要的强化学习框架
1. OpenAI健身房(OpenAI)
2. OpenAI Universe(OpenAI)
3. OpenAI Gym Retro(OpenAI)
4.深度心灵实验室(Deep Mind)
吉姆星际争霸(蚂蚁)
(完)
免责声明:本文由网络撰写。
编辑负责人:

上一篇:2019年国家公务员考试常识判决 - 9月9日日常执业

下一篇:SAI[货币兑换初步评论]英国脱欧和GDP的上涨强烈冲