AlphaStar被职业玩家戏耍:在星际2上,人工智能无计可施

  • 日期:10-10
  • 点击:(1804)


原始标题:AlphaStar由专业玩家玩:在《星际争霸2》上,人工智能无关

参加:李泽南,杜薇

今年1月,谷歌的人工智能技术公司DeepMind的“星际争霸2”人工智能AlphaStar与人类职业玩家进行了现场比赛,并为失败感到遗憾。七个多月过去了,人工智能在《星际争霸》上取得了什么进展? DeepMind声称它现在可以达到专业水平吗?

为了提高人工智能水平,DeepMind和暴雪在战网阶梯中开放了。 AlphaStar:玩家只要申请并通过,就可以在线使用此强大的AI进行申请。现在,AlphaStar可以参加所有三场比赛。

但是,与Go AI AlphaGo的轨迹不同,经过几个月的开发,人工智能游戏似乎根本没有发展。取而代之的是,人类玩家已经获得了经验:他们发现了各种各样的“玩” AI方法。

我们发现了AlphaStar最近的三场人机战视频:

在两次神族与虫族的对抗中,AlphaStar(P)面对着目前世界排名第50的Bly(Z),并且没有从头到尾进行反击。

首先是第一场比赛:Zer,Bly比之前与AlphaStar对抗过的LiquidTLO年龄大。他是《星际争霸2》的玩家,已经从《魔兽争霸3》过渡而来,已超过30岁。但是,在这两种游戏中,人类玩家都可以通过简单的单雷突击战术获得几乎相同的胜利。人们曾经说过,人工智能的最新发展似乎仅限于“学习在聊天频道中表达爱意”。

AlphaStar的人文力量是什么? AlphaStar在第三名Neeb(Protoss)中的表现。

可以看出,尽管AI在使用人类时学会了使用女妖和死亡之神来骚扰敌人,但在Neeb的负面攻击中被击败,整个游戏耗时13分钟。

这可能是当前最高端的“人机战”:AlphaStar vs Serral。

DeepMind无疑在《星际争霸2》中找到了目前最强的玩家,而芬兰的Zerg玩家Serral进行了人为对决。在这16分钟的比赛中,Serral和AI进行了积极的艰苦奋斗。然而,看来这场比赛两边的短板比赛最终都会失败。一些评论表明,Serral似乎更像是AI,而不是AlphaStar。

以下引述网友对游戏的深入解释:

更糟糕的是,人类玩家似乎已经找到了与AlphaStar对抗的方法。但是现在,DeepMind经常更改其自己的帐户,从而使其更难追踪。从游戏中可以看出,代理具有几个特征:

1.在与人类玩家的战斗中取得了巨大飞跃,但仍然无法真正理解游戏的概念;

2.无法回应大量常见的游戏策略;

3.在游戏中无法根据人类对手进行调整,始终坚持设置游戏脚本;

4.除了人族以外,其他特工在宏观和微观操作方面也表现出了技巧,但是在建立阵地方面存在困难,常常将自己的部队锁定在基地内;

5.在人类游戏中表现最差的人,虫族表现最好(有争议);

6.策略是Zerg游戏中最单调的策略。

DeepMind《星际争霸 2》AI阻碍了人类玩家的发展

《星际争霸2》是人类游戏史上最困难,最成功的实时策略游戏。该系列游戏已经存在了20多年。 《星际争霸》之所以繁荣,部分原因是其丰富的多级游戏机制。对于人工智能研究,这是一个非常接近现实世界的虚拟环境。

《星际争霸》拥有平衡的游戏规则,以及许多需要控制的信息和变量。另外,游戏的时间通常在几分钟到一个小时的范围内,这意味着游戏的早期执行可能长时间不会生效。最后,由于战争迷雾的存在,地图仅部分显示给玩家,这意味着必须将座席与记忆和计划结合起来才能成功。

2017年,DeepMind宣布开始研究实时策略游戏《星际争霸 2》的人工智能。

2018年12月10日,AlphaStar击败了DeepMind中最强大的玩家Dani Yogatama。 12月12日,AlphaStar能够以5: 0击败职业玩家TLO(尽管TLO是虫族玩家,但评论员认为他的表现是5,000点。又过了一周,12月19日,AlphaStar也击败了专业玩家MaNa,得分为5:0。

那么AlphaStar如何学习玩《星际争霸 2》?

AlphaStar的行为由深度神经网络生成,该神经网络从原始数据接口(单元列表及其特征)接收输入数据,并输出构成游戏中行为的一系列指令。具体来说,神经网络使用变压器作为单元中的躯干,将深LSTM核心,具有指针网络的自回归策略头和中心值基线组合在一起。

AlphaStar还使用一种新的多主体学习算法。该神经网络最初经过培训,可以通过暴雪的匿名人类游戏视频来监督学习。这使AlphaStar可以通过模仿来学习梯子玩家的基本微操作和宏观操作策略。

AlphaStar联盟。它最初是由人类玩家的游戏播放视频进行训练的,然后与其他对手进行训练。每次迭代都与新对手匹配,冻结原始对手,匹配对手的概率和超参数确定每个代理采用的学习目标函数,同时增加多样性并增加难度。代理的参数通过强化学习进行更新。最终代理是从联合的Nash分布中采样的(未替换)。

随着自我游戏的发展,AlphaStar逐渐发展出越来越成熟的战术。 DeepMind说,这一过程类似于人类玩家如何找到战术:新战术继续击败旧战术。

DeepMind AlphaStar在人类玩家MaNa的首场演出中首次亮相

今年1月,DeepMind的AlphaStar终于在世界上首次亮相。但是,在一场与人类职业选手和前WCS亚军MaNa对抗的现场比赛中,人工智能因人类的“敲诈”策略而令人困惑,但不幸地被击败了。

在多次显示AI实力的重播之后,AlphaStar输掉了比赛。面对刚刚从计算机中站起来的MaNa,DeepMind的两位科学家David Sliver和Oriol Vinyals只能露出狡猾的微笑。

在该游戏中,还揭示了AI的缺陷:除了特定的拆分策略外,特工没有形成灵活的力分配概念。 MaNa的策略是:棱镜被AI上两个不朽的基地骚扰,而AlphaStar一回到防御中就立即飞走,等待AI部队出去并立即继续骚扰。因此,面对玛娜的灵活派兵策略,阿尔法之星只能被动战斗,因而无法对玛娜形成有效的进攻,而且导致最终的失败。

毫无疑问,作为人工智能的领先研究机构,DeepMind的AlphaGo和AlphaFold项目不仅引起了全球对人工智能技术的关注,而且还在某些领域找到了新技术的方向。但是,在《星际争霸2》中,人工智能遇到了前所未有的挑战。继续消耗金钱的DeepMind是否可以找到解决方案?

本文是机器报告的核心,请联系公众号以获取授权。回到搜狐,看看更多

负责编辑:

2019-09-09 11: 51

源:已同步的机器核心

原标题:AlphaStar由专业玩家扮演:在星际争霸2上,人工智能与此无关

参与:李泽南、杜伟

今年1月,谷歌人工智能技术公司deepmind的《星际争霸2》人工智能alphastar与人类专业玩家进行了现场比赛,并对失败表示遗憾。七个多月过去了,人工智能在“星际争霸”上取得了什么进展?现在能达到DeepMind宣称的专业水平吗?

为了提高人工智能的水平,深度思维和暴雪开辟了在战斗网络中的阶梯。AlphaStar:玩家可以在线申请这个强大的人工智能,只要他们申请并通过。现在,AlphaStar可以进入所有三个种族。

不过,与Go-AI AlphaGo的发展轨迹不同,经过几个月的发展,人工智能游戏似乎一点也没有成长。相反,人类玩家获得了经验:他们发现了各种“玩”人工智能的方法。

我们发现了AlphaStar最近的三段人机战争视频:

在两个神族对虫族的战斗中,阿尔法斯塔(P)面对的是目前世界上第50个布莱(Z),从头到尾都没有反击。

首先是第一场比赛:Zer,Bly比之前与AlphaStar对抗过的LiquidTLO年龄大。他是《星际争霸2》的玩家,已经从《魔兽争霸3》过渡而来,已超过30岁。但是,在这两种游戏中,人类玩家都可以通过简单的单雷突击战术获得几乎相同的胜利。人们曾经说过,人工智能的最新发展似乎仅限于“学习在聊天频道中表达爱意”。

AlphaStar的人文力量是什么? AlphaStar在第三名Neeb(Protoss)中的表现。

可以看出,尽管AI在使用人类时学会了使用女妖和死亡之神来骚扰敌人,但在Neeb的负面攻击中被击败,整个游戏耗时13分钟。

这可能是当前最高端的“人机战”:AlphaStar vs Serral。

DeepMind无疑在《星际争霸2》中找到了目前最强的玩家,而芬兰的Zerg玩家Serral进行了人为对决。在这16分钟的比赛中,Serral和AI进行了积极的艰苦奋斗。然而,看来这场比赛两边的短板比赛最终都会失败。一些评论表明,Serral似乎更像是AI,而不是AlphaStar。

以下引述网友对游戏的深入解释:

更糟糕的是,人类玩家似乎已经找到了与AlphaStar对抗的方法。但是现在,DeepMind经常更改其自己的帐户,从而使其更难追踪。从游戏中可以看出,代理具有几个特征:

1.在对抗人类玩家方面取得了长足的进步,但仍然无法真正理解游戏的概念;

2.无法及时响应大量常见的游戏策略;

3.不能根据人类对手在游戏中进行调整,始终坚持设定的游戏脚本;

4.除了族裔群体外,其他特工在宏观和微观行动上也表现出娴熟的技能,但他们在建立定位上有困难,常常将其单位锁定在基地内;

5.民族运动会中最差的表现和异虫的最佳表现(有争议);

6.在异虫游戏中,策略是最单调的。

DeepMind《星际争霸 2》AI对人类玩家的发展

《星际争霸2》是人类游戏史上最困难,最成功的实时策略游戏。这一系列游戏的历史已经持续了20多年。 StarCraft繁荣的部分原因是其丰富的多层游戏机制,这是一个非常接近人工智能研究的真实世界的虚拟环境。

《星际争霸》具有均衡的游戏规则,以及许多需要控制的信息和变量。此外,游戏通常会持续几分钟到一个小时,这意味着在游戏中提早执行可能会在很长一段时间内无效。最后,由于战争迷雾,地图仅部分显示给玩家,这意味着特工必须结合记忆和计划才能成功。

2017年,DeepMind宣布开始对实时战略游戏《星际争霸 2》的人工智能进行研究。

2018年12月10日,AlphaStar击败了DeepMind中最强大的玩家Dani Yogatama。 12月12日,AlphaStar能够以5: 0击败职业玩家TLO(尽管TLO是虫族玩家,但评论员认为他的表现是5,000点。又过了一周,12月19日,AlphaStar也击败了专业玩家MaNa,得分为5:0。

那么AlphaStar如何学习玩《星际争霸 2》?

AlphaStar的行为由深度神经网络生成,该神经网络从原始数据接口(单元列表及其特征)接收输入数据,并输出构成游戏中行为的一系列指令。具体来说,神经网络使用变压器作为单元中的躯干,将深LSTM核心,具有指针网络的自回归策略头和中心值基线组合在一起。

AlphaStar还使用一种新的多主体学习算法。该神经网络最初经过培训,可以通过暴雪的匿名人类游戏视频来监督学习。这使AlphaStar可以通过模仿来学习梯子玩家的基本微操作和宏观操作策略。

AlphaStar联盟。它最初是由人类玩家的游戏播放视频进行训练的,然后与其他对手进行训练。每次迭代都与新对手匹配,冻结原始对手,匹配对手的概率和超参数确定每个代理采用的学习目标函数,同时增加多样性并增加难度。代理的参数通过强化学习进行更新。最终代理是从联合的Nash分布中采样的(未替换)。

随着自我游戏的发展,AlphaStar逐渐发展出越来越成熟的战术。 DeepMind说,这一过程类似于人类玩家如何找到战术:新战术继续击败旧战术。

DeepMind AlphaStar在人类玩家MaNa的首场演出中首次亮相

今年1月,DeepMind的AlphaStar终于在世界上首次亮相。但是,在一场与人类职业选手和前WCS亚军MaNa对抗的现场比赛中,人工智能因人类的“敲诈”策略而令人困惑,但不幸地被击败了。

在多次显示AI实力的重播之后,AlphaStar输掉了比赛。面对刚刚从计算机中站起来的MaNa,DeepMind的两位科学家David Sliver和Oriol Vinyals只能露出狡猾的微笑。

在该游戏中,还揭示了AI的缺陷:除了特定的拆分策略外,特工没有形成灵活的力分配概念。 MaNa的策略是:棱镜被AI上两个不朽的基地骚扰,而AlphaStar一回到防御中就立即飞走,等待AI部队出去并立即继续骚扰。因此,面对玛娜的灵活派兵策略,阿尔法之星只能被动战斗,因而无法对玛娜形成有效的进攻,而且导致最终的失败。

毫无疑问,作为人工智能的领先研究机构,DeepMind的AlphaGo和AlphaFold项目不仅引起了全球对人工智能技术的关注,而且还在某些领域找到了新技术的方向。但是,在《星际争霸2》中,人工智能遇到了前所未有的挑战。继续消耗金钱的DeepMind是否可以找到解决方案?

本文是机器报告的核心,请联系公众号以获取授权。回到搜狐,看看更多

负责编辑:

免责声明:本文仅代表作者本人,搜狐是信息发布平台,搜狐仅提供信息存储空间服务。

马纳利奇

星际

播放器

虫族

阅读()