タスク制御を伴う複合動作学習
Composite Motion Learning with Task Control
May 5, 2023
著者: Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas
cs.AI
要旨
物理シミュレーションキャラクターのための複合的なタスク駆動型モーション制御を実現する深層学習手法を提案します。既存の強化学習を用いたデータ駆動型アプローチが全身のモーションを模倣するのに対し、本手法ではGANに似たセットアップで複数の識別器を活用し、特定の身体部位の分離されたモーションを複数の参照モーションから同時に直接学習します。このプロセスでは、学習用の複合参照モーションを手動で作成する必要はありません。代わりに、制御ポリシー自体が複合モーションを自動的に組み合わせる方法を探索します。さらに、複数のタスク固有の報酬を考慮し、単一の多目的制御ポリシーを訓練します。この目的のために、複数のソースからの異なるモーションと複数の目標指向型制御目的の学習を適応的にバランスさせる、新しい多目的学習フレームワークを提案します。加えて、複合モーションは通常、より単純な動作の拡張であるため、事前に訓練されたポリシーをメタポリシーとして再利用し、新しい複合タスクのためにメタポリシーを適応させる協調ポリシーを訓練する、サンプル効率の良い増分的な方法を導入します。本手法の適用性を、複合モーションの模倣と複数の目標指向型制御の両方を含む様々な挑戦的な多目的タスクにおいて示します。
English
We present a deep learning method for composite and task-driven motion
control for physically simulated characters. In contrast to existing
data-driven approaches using reinforcement learning that imitate full-body
motions, we learn decoupled motions for specific body parts from multiple
reference motions simultaneously and directly by leveraging the use of multiple
discriminators in a GAN-like setup. In this process, there is no need of any
manual work to produce composite reference motions for learning. Instead, the
control policy explores by itself how the composite motions can be combined
automatically. We further account for multiple task-specific rewards and train
a single, multi-objective control policy. To this end, we propose a novel
framework for multi-objective learning that adaptively balances the learning of
disparate motions from multiple sources and multiple goal-directed control
objectives. In addition, as composite motions are typically augmentations of
simpler behaviors, we introduce a sample-efficient method for training
composite control policies in an incremental manner, where we reuse a
pre-trained policy as the meta policy and train a cooperative policy that
adapts the meta one for new composite tasks. We show the applicability of our
approach on a variety of challenging multi-objective tasks involving both
composite motion imitation and multiple goal-directed control.