• 主页 > 芝士问答
  • DeepMind强化学习AI踢足球:精准拦截与机智配合的精彩瞬间

    AG直营真人游戏第一品牌

    AI踢足球有多令人兴奋?

    不,对手已经达到底线!看着我拦截并用一枪抓住球!

    想抓住它吗?决不!

    差点进来,所以快点把它传回去!好的队友,立即回答。

    呵呵,你被骗了。我的队友在没有球的情况下逃跑了,欺骗了防守。当然,我很快就经过了它并杀死了它!

    怎么样,你比你更好吗?

    在加强学习中,深态始终处于世界的最前沿。以上演示是他们在比赛中训练的“两人足球” AI的激动人心的时刻。

    基于AI控制的智能玩家不仅灵活而敏捷,而且还可以掌握基本技能,例如运球,传球和传球。

    更重要的是,为了赢得比赛,多个代理商实际上学会了合作。例如,红色球员以上述假球和无球奔跑的方式的策略非常机智。

    整个过程一口气完成,看上去与人类足球运动员几乎没有什么不同。

    您知道,在训练之前,他们只是一群顽皮的孩子,他们无法站稳脚跟,躺下,想在几秒钟内休息。

    但是他们仍然很有才华。经过三天的培训,他们学习了相对简单的合作技巧。

    在完成了50天的培训后,他们可以在非常好的水平上完成抢断,回应和分裂行动的协调节奏。

    DeepMind一直试图使用AI玩复杂而可变的战略游戏,以训练接近人类智能水平的代理商。在足球比赛中,团队合作是特工培训面临的最大挑战。它不仅需要非常熟练的足球规则和技能,而且还需要更好地理解场上的情况,队友和对手的位置以及目标,以做出更合理的决定。

    DeepMind说,已升级的AI代理商对他人的“意识”进行了培训,并可以与队友合作,在更大的时间和空间维度上完成更复杂的战略策略。

    在发布演示视频的同时,DeepMind还分享了题为“从运动控制到团队在模拟的人形足球比赛中的比赛”的技术论文。

    纸张地址:

    在本文中,研究人员提出了一种将模仿学习,单一代理和多代理增强学习与小组培训相结合的方法,并通过对足球的模拟人像模拟进行群体培训,并利用可转移的行为表征来领导决策在不同级别的抽象水平。

    在训练阶段,这位具有所有关节的人形玩家首先通过模仿学习学习了一些基本运动。

    我已经掌握了中级足球技能,例如运球和射击。

    最后,通过毫秒级的运动控制实现了多机构团队的协作,从而在数十秒内弥合了行为和目标之间的差距。

    以下是2V2多代理在物理世界中实施多维综合决策的演示视频:

    纸概述

    艾伦·纽厄尔(Allen Newell)在描述基本认知科学和人工智能的评论中指出,从毫秒级的肌肉抽搐到数百毫秒或几秒钟的认知水平决策到更长的社会信息导向目标序列,可以在多个层面上理解人类行为。

    正如纽厄尔观察到的那样,协调抽象水平的能力是人类行为最突出的特征之一。这种能力意味着人类可以通过低级运动来形成认知级别的决策,然后完成高级目标或协作任务。

    纽厄尔(Newell)发表本文后,在研究智能行为的研究中取得了重大进展。学者们已经开始关注单个身体的抽象水平,例如运动控制和面向目标的行为,合作行为的起源以及动物与人之间的群体协调机制。同样,机器人研究的目标是使机器能够产生类似于动物的敏捷和复杂运动。

    近年来,基于学习的方法已成功解决了人工智能领域的一些现有挑战,包括等级行为,长期策略和多基金会协调问题。本文介绍了一个具体的系统的广泛前景,该系统模拟了现实世界,以产生复杂的运动策略。但是,纽厄尔(Newell)强调的多维行为策略以及现实世界的复杂性仍然为人工智能系统设计师带来了许多麻烦。

    基于对智能类人动物控制的研究(22,23,31-33),本文根据对智能人体机体控制的研究(22,23,31-33)的研究来开发基于深度强化学习(DEEP RL)的研究框架,通过模拟人类足球比赛的模拟,解决了长期合作中团队协作的现有问题。

    在行为研究中,团队运动在协调决策和运动控制方面面临许多挑战。自1996年以来,与机器人有关的研究一直在尝试解决这些挑战,尤其是在足球比赛中,他们的目标是到2050年击败人类足球队。

    在足球比赛中,激烈的竞争要求双方的球员在不同的时间和空间抽象的不同水平上做出决策 - 通过“低级”快速控制产生“中级”技能,以实现“高级”目标,例如通过以目标为导向的行为(例如踢球和滴滴)赢得团队的得分。应该强调的是,这些不同级别的决策水平密切相关。例如,通行证的成功和失败取决于对球场上局势的共同理解以及球员联合行动的一致性,也取决于他们准确控制其运动的能力。

    本文试图通过模拟现实的足球环境来解决体育和团队合作中代理商面临的挑战。文本中的代理由完全明确的物理类人形生物组成,具有足够的灵活性以自然移动,并且可以与其他多种游戏合作,以产生更复杂的协调策略。

    具体而言,代理商的学习框架分为三个阶段:首先,通过模仿学习来掌握低级运动技能,然后使用强化学习来获得中级足球技能,最后通过强化多个代理商来完成整个足球比赛。这个过程意味着,通过模仿先前的知识,代理可以在自我游戏视频中学习更多复杂的技能,这些技能很难通过奖励或模型学习来教授它。

    实验证明,基于此培训框架的代理商掌握了复杂的运动,足球技能和团队合作的能力。在演示视频中,该经纪人展示了拟人化,敏捷,健壮的动作和球形控制技能,例如迅速从地面上站起来,调整方向或在对手周围盘旋,随时准备进攻。

    从个人行为发展到协调的团队战术(从运动到与防御,定位和传球的合作),研究人员将现有的AI技术与运动分析技术相结合,以定量分析球员运动,行为策略和内部绩效。实验表明,游戏的结果与玩家的技能呈正相关,并且也与团队合作策略和预测对手行为的能力呈正相关。与人类对足球运动员的观察类似,代理商对盘盘球员,对手的得分状况以及运球的意图有正确的了解。

    应该指出的是,尽管本文仅提供足球比赛中的框架,但其基本原理是一般的,也就是说,代理框架也适用于其他需要团队合作的场景或领域。

    代理学习模式

    如上所述,代理的学习过程分为三个阶段。第一阶段是通过模仿从人类运动数据中获得低级运动技能,并通过关节驱动将其转变为现实的人类运动。第二阶段是训练代理商,根据运动模块学习一系列特殊的足球技能,并为一般体育和防球技能设定培训优先级;第三阶段是训练代理商在完整的足球比赛中掌握长期视觉协调能力。该阶段使用低和中级技能的代表来加快训练的速度,避免当地的最优性和常见问题。

    以下是三个阶段的概述:

    主要技能:所使用的数据是从足球比赛的某个部分拦截的,该游戏持续约1小时45分钟,重点是跟踪足球运动员四肢的基本运动。就基础控制器(如图2G所示)而言,使用了由跟踪运动捕获片段和独立策略组成的二级管道。其中,每个跟踪行为将被完善成一个基础控制器。该结构称为神经概率运动原始(NPMP)模型。

    具体而言,首先将运动捕获数据切成4-8个片段,每个片段都是通过强化学习模拟的,并且训练了单独的时间索引“跟踪”策略。然后从每个跟踪策略中提取多个运动轨迹,并适当地添加噪声以纠正运动行为。接下来,使用监督训练方法将这些抽样轨迹完善成单个神经网络控制器。

    中级足球技能:包括跑步,转弯和平衡,以及运球和踢脚技巧,这是代理商训练的教学大纲。这些预览技能将用于在整个足球任务中加速学习。

    在此阶段,基于PBT-R的特定特定专家培训策略(如图2H所示)。基于低级运动技能,培训了一组特定于任务的专家,以将电动机意图输出到固定的NPMP模块中,有效地在潜在的运动意向空间中执行RL,并使用适应性测量和专家的培训目标选择作为奖励功能,以表征所需的行为。

    在较大的视野中的协作运动:使用两次计算优化设置来训练足球运动员(如图2J-K所示)。外环驱动PBT的适应性测量,然后使用在前两个阶段获得的行为塑造,低和中级技能,以及额外的塑造奖励,通过多方面的增强学习来优化内部循环。

    实验和结果

    在本文中,使用一系列实验来评估代理在不同阶段和框架性能的学习状态。每个实验都会训练16名独立的足球运动员及其权重和超级参数随机初始初始化。在所有实验中使用相同的NPMP,但是为每个实验培训了一组单独的专家和先验知识。其培训的基本平台如下:

    使用16核TPU-V2中央处理器和128个服务器来完成代理学习和推理过程。每个代理使用内核,每个服务器执行由唯一模型名称标识启动的推理服务。可以根据同一推理模型的同时请求进行自动批次推理,在此请求会产生少量的边际成本。

    实验结果如下:

    以上实验结果表明,代理行为的发展过程大致分为两个阶段:首先获得基本的运动和控制能力,然后开始显示团队之间的协调与合作。

    在第一阶段,经过24小时的训练,玩家学习了游戏的基础知识,并且他的锻炼和球控制能力得到了迅速提高(如上图5B所示)。经过又6个小时的训练,玩家可以自己从80%的瀑布中恢复过来。此外,根据工党劳动部统计数据,随着球员的个人球控制能力的提高,两支奔波足球的行为都大大减少。

    如上图5a所示,足球对代理策略有重大影响。经过5个小时的培训,其造成的反事实策略差异约为队友的40倍,是竞争对手的700倍。图中的检测任务得分小于50%,这意味着传球手朝与接收器相反的方向踢球。

    团队合作的第二阶段开始出现。如图5B所示,该值在8×10^10环境步态后达到0.85,这意味着球员的球控制策略与他的队友更加协调(队友正在等待前面的传球);通过的频率和范围增加了。通过8×10^10环境步态中的传球占6%,其中40%的通行证的中风超过10米; OBSO在整个训练过程中也大大增加了,这意味着球员在球场上的位置很好,也就是说,玩家在可能得分以获得通过的位置上调整了自己的方向。

    应当指出的是,训练期间的奖励机制不能激励OBSO的增加,这意味着代理商的协调行为主要来自赢得足球比赛的竞争压力。

    与上述情况一致,代理策略中由队友和竞争对手引起的CPD显着增加,这意味着代理策略对其他玩家的位置更敏感:由步态在8×10^10引起的CPD小于队友的5倍,而竞争对手的10倍,这大大增加了其他抗议者的相对影响。

    在检测任务中,Pass值的相关性也显着增加:在8×10^10环境步态后达到0.2至0.4之间。这表明传球手和接收者对通行证期间的周围情况有更清楚的了解,并更加注意领导球的队友。在8×10^10环境步态之后,检测任务的性能也显着提高,并且传球手成功地通过了60%。综上所述,这些观察结果表明,代理商了解将球传给队友的好处,并能够采取相应的动作。

    总结

    总体而言,这项研究解决了以下现有挑战:代理会产生自然有效的人类行为;行为具有多维层次结构;多种代理之间发生协调与合作。另外,它使用的方法可以随时迁移到其他任务。在对代理商的研究中,这项研究结果迈出了一小步,朝着人类层面的智能运动迈出了一小步。

    这项研究的结果是在模拟真实的物理环境中获得的,具有更开放的环境,这意味着更复杂的行为策略,包括敏捷运动和玩家之间的身体接触。尽管最近有一些成功的故事将模拟行为转移到了现实世界中,但这并不是该实验的目标。

    此外,这项研究的结果当前不适用于SIM到现实的迁移,并且开发的方法不适用于直接在机器人硬件上实施。出于安全原因等,有很多原因,例如缺乏高质量数据。但是,它确实显示了基于学习的方法在生成复杂的行动策略方面的潜力。应该强调的是,虽然模拟研究大大简化了现实世界的复杂性,但它可以帮助我们了解各个方面的计算原理,并最终在现实世界中产生相似的行为。

    相关链接:

    推荐出色的人工智能书籍,扫描代码以查看详细信息:

    过去必须阅读的文章(单击查看):

    1。

    2。

    3。国民国防大学教授:Yin Jianping - 计算机科学理论的过去,现在和未来

    4。

    5。

    6。

    7。

    8。元

    9。

    10。

    11。

    12。

    AG直营真人游戏第一品牌

    版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:https://www.wwcsgc.com/html/tiyuwenda/6376.html

    加载中~

    相关推荐

    加载中~