【】DeepMind教AI玩跑酷强化学习创造新动作（动图

　　强化学习（RL）是通过激励系统来行为的方法。这是机器学习的一种重要方法，在智能控制机器人和分析预测等领域有许多应用。DeepMind 已经使用强化学习方法AI围棋和多种Atari游戏，现在，DeepMind又利用强化学习了AI“跑酷”，在各种不同的模拟中让智能体产生多种灵活、具有创造性的动作。本文介绍了最新的3篇论文。

　　猴子在树林之间灵活穿行，足球运动员闪开对手射门。掌握些复杂的动作控制是物能的标志，也是AI研究的重要组成部分。

　　真正的运动智能（motor intelligence）需要学习如何控制和协调柔韧的身体在各种复杂中解决任务。当前，控制模拟的人形体进行活动的尝试来自不同领域，包括计算机动画（computer animation）和生物力学（biomechanics）。有一种趋势是使用手工制作的模拟人，有时候加上运动捕捉数据来产生特定的行为。然而，这种方法需要相当多的工程工作，而且可能导致局限于某些行为，或产生的行为难以对新任务重复利用。

　　DeepMind 最新的3篇论文探索了产活、自然的行为的方式，这些行为可以重复利用并适用于解决不同的任务。

　　对于一些AI问题，例如玩 Atari 游戏或围棋，目标是很容易定义的——让AI赢得游戏。但是如何描述一个后空翻过程呢？或者如何描述一个跳跃行为？如何准确地描述复杂的行为是教人工智能系统获取运动技能的常见难题。在这项研究中，我们探讨了如何使用简单的高层目标，例如“不要跌倒地向前移动”，来让身体与交互，从头开始产生复杂的行为。具体来说，我们训练了具有各种不同的模拟人体的智能体，以便在不同的地形行进，这些地形要求智能体进行跳跃、转弯和蹲伏。结果显示，智能体不需要接收具体的说明就能发展出这些复杂的技能，这一方法可以应用于为多个不同的模拟人体训练系统。下面的GIF展示了这一技术如何产生高质量的运动和韧性。

　　前面描述的行为可以常稳健的，但是由于这些动作必须从无到有地形成，所以往往看起来不像是人。我们的第二篇论文演示了如何训练一个通过人类行为的动作捕捉数据来模拟动作的策略网络，以预学习某些特定的技能，例如步行，从地上起身，跑步和转弯。这个网络产生了类似人的行为，而且可以进行微调，以重新利用这些行为来解决其他任务，例如爬楼梯和在有围墙的走廊中。

　　DeepMind 的第3篇论文提出一种基于当前最优的生成模型的神经网络架构，能够学习不同行为之间的关系，并模拟它们产生具体的动作。经过训练后，该系统可以对观察到的一个单个动作进行编码，并基于这个演示创建一个全新的动作。它也可以在不同类型的行为之间切换，即使它从没看到过这种切换是怎样的，例如在不同的步行风格之间切换。