작업 제어를 통한 복합 운동 학습
Composite Motion Learning with Task Control
May 5, 2023
저자: Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas
cs.AI
초록
본 논문에서는 물리 기반 시뮬레이션 캐릭터를 위한 복합적이고 작업 주도적인 모션 제어를 위한 딥러닝 기법을 제안한다. 기존의 강화 학습을 활용한 데이터 기반 접근법이 전신 동작을 모방하는 것과 달리, 우리는 GAN과 유사한 설정에서 다중 판별기를 활용하여 특정 신체 부위의 분리된 동작을 다중 참조 동작으로부터 동시에 직접 학습한다. 이 과정에서 학습을 위한 복합 참조 동작을 생성하기 위한 수작업이 필요하지 않으며, 대신 제어 정책이 복합 동작이 어떻게 자동으로 결합될 수 있는지를 스스로 탐색한다. 또한, 다중 작업 특화 보상을 고려하고 단일 다중 목표 제어 정책을 학습한다. 이를 위해, 우리는 다중 출처로부터의 상이한 동작 학습과 다중 목표 지향적 제어 목표를 적응적으로 균형 잡는 새로운 다중 목표 학습 프레임워크를 제안한다. 추가적으로, 복합 동작이 일반적으로 단순한 행동의 확장이기 때문에, 우리는 사전 학습된 정책을 메타 정책으로 재사용하고 새로운 복합 작업에 대해 메타 정책을 적응시키는 협력 정책을 학습하는 증분적 방식으로 복합 제어 정책을 효율적으로 학습하는 방법을 소개한다. 우리는 복합 모션 모방과 다중 목표 지향적 제어를 모두 포함하는 다양한 도전적인 다중 목표 작업에서 우리의 접근법의 적용 가능성을 보여준다.
English
We present a deep learning method for composite and task-driven motion
control for physically simulated characters. In contrast to existing
data-driven approaches using reinforcement learning that imitate full-body
motions, we learn decoupled motions for specific body parts from multiple
reference motions simultaneously and directly by leveraging the use of multiple
discriminators in a GAN-like setup. In this process, there is no need of any
manual work to produce composite reference motions for learning. Instead, the
control policy explores by itself how the composite motions can be combined
automatically. We further account for multiple task-specific rewards and train
a single, multi-objective control policy. To this end, we propose a novel
framework for multi-objective learning that adaptively balances the learning of
disparate motions from multiple sources and multiple goal-directed control
objectives. In addition, as composite motions are typically augmentations of
simpler behaviors, we introduce a sample-efficient method for training
composite control policies in an incremental manner, where we reuse a
pre-trained policy as the meta policy and train a cooperative policy that
adapts the meta one for new composite tasks. We show the applicability of our
approach on a variety of challenging multi-objective tasks involving both
composite motion imitation and multiple goal-directed control.