人工智能在星际争霸中击败了全人类

  一种新的算法AlphaStar击败了星际争霸中最优秀的人类玩家。这本身不仅是一项了不起的成就,而且可以教会AI如何解决其他应用程序中的复杂问题。

  策略游戏中AI的出现并不是一件新鲜事。尤其是Google的“ Alpha”类 AI,以其非凡的实力席卷了整个世界。他们正在革新国际象棋和围棋- 曾经被认为对于算法是无法克服的。研究人员还把目光投向了其他游戏(例如DOTA和Poker),但结果令人鼓舞,但效果有限。游戏的复杂性,加上您没有所有可用信息的事实(与围棋和国际象棋相对,您可以自由查看整个棋盘),这给AI带来了严峻挑战。

  但是不用担心-我们算法的朋友正在慢慢克服它们。新的Alpha AI,恰当地称为AlphaStar,现在已经达到了惊人的水平,在所有Starcraft II玩家中排名前98.5%。

人工智能在星际争霸中击败了全人类

  《星际争霸》是有史以来最受欢迎的计算机策略游戏之一。它的续集《星际争霸II》具有非常相似的场景。玩家选择以下三种种族之一:技术先进的人类,神族(灵能的大师)或虫族(迅速进化的生物怪兽)。然后,他们开采资源,建造建筑物,组建军队,并试图消灭对手。

  《星际争霸》中有多种可行的策略,没有克服对手的简单方法。臭名昭著的“战争迷雾”也隐藏了对手的动作,因此您还必须为他们所做的一切做好准备。

  AlphaStar设法达到了Grandmaster Tier(仅适用于最佳Starcraft玩家的类别)。

人工智能在星际争霸中击败了全人类

  在如此复杂的游戏中拥有如此出色的AI,十年前是无法想象的。进步是如此显着,以至于DeepMind的一位研究人员,公司对这些AI进行了培训和运行,将其称为职业生涯的“决定性时刻”。

  “这是梦想成真,” DeepMind AlphaStar项目负责人Oriol Vinyals说。“ 20年前,我是一名非常认真的《星际争霸》玩家,而我一直对游戏的复杂性着迷。AlphaStar仅通过神经网络和通用学习算法就达到了Grandmaster级别,这在10年前我使用基于规则的系统研究StarCraft AI时是无法想象的。

  AlphaStar通过几种关键方式提高了我们对AI的理解:在竞争性联盟中进行多代理培训可以在高度复杂的环境中带来出色的性能,而单独的模仿学习可以取得比我们以前预期的更好的结果。

  我很高兴开始探索将这些技术应用到现实世界中的挑战的方法,例如帮助提高AI系统的鲁棒性。我为团队为此付出的辛勤工作感到非常自豪。到目前为止,这一直是我职业生涯的决定性时刻。”

  AI并没有扮演“ AI作弊”的角色,它必须面对与人类玩家相同的限制:

  它只能像人类一样通过摄像机看到地图;

  它必须通过服务器播放,而不是直接播放;

  它具有内置的反应时间;

  它必须选择一个种族并参加比赛。

  即使有这些,AI仍然表现出色。

  在每个给定的时刻,星际争霸玩家(或算法)必须从多达10 ^ 26个可能的动作中进行选择,所有这些动作都可能会带来重大的后果。因此,研究人员采取了不同于围棋或国际象棋的方法。在这些古老的游戏中,AI通过玩数以百万计的游戏,独自练习和学习来学习。但是,在《星际争霸》算法中,必须将一些初始信息输入到框架中。

  这就是所谓的模仿学习-基本上是教AI如何玩游戏。通过执行此操作并将其与神经网络体系结构相结合,该AI已经比大多数参与者更好。通过更多的监督学习,它可以超越世界上最优秀的选手。这使它可以从现有策略中学习,但也可以发展自己的想法。

  “星际争霸15年来一直是AI研究人员面临的巨大挑战,因此看到这项工作在《自然》杂志中得到认可,这真是令人兴奋。这些令人印象深刻的成果标志着我们创建可加速科学发现的智能系统的使命迈出了重要的一步。” DeepMind联合创始人兼首席执行官Demis Hassabis说。

  专业的《星际争霸》玩家也为看到AI发挥自己的游戏而感到震惊。与以前的Alpha AI迭代一样,该算法提出了新的创新策略。

  “ AlphaStar是一位耐人寻味的,非正统的玩家-拥有最佳职业选手的反应能力和速度,但策略和风格完全是自己的,” Panda Global的《星际争霸II》职业玩家Diego“ Kelazhur” Schwimer说。“ AlphaStar的训练方式是,代理商在同盟中互相竞争,这导致了令人难以置信的异常游戏体验;这真的使您质疑专业玩家真正探索过星际争霸的多种可能性。尽管一开始AlphaStar的某些策略可能看起来很奇怪,但我不禁要问,将它展示的所有不同玩法组合起来实际上是否是玩游戏的最佳方式。”

  这是一个令人印象深刻的里程碑。这也是使我们思考教导AI如何在战略战争游戏中击败我们的一个好主意。但是到目前为止,至少不必担心。认可机构的范围非常有限。他们可以变得非常出色,但是严格地按照他们的训练任务去做-例如,他们无法将在计算机游戏中学到的知识应用到现实的战争场景中。

  取而代之的是,该应用程序可以帮助研究人员学习如何设计更好的AI,以应对简单的现实世界场景,例如操纵机械臂或为智能家居操作高效暖气。


本文链接:http://www.zjddzb.com/tongji/31.html