Обучение композитным движениям с управлением задачами
Composite Motion Learning with Task Control
May 5, 2023
Авторы: Pei Xu, Xiumin Shang, Victor Zordan, Ioannis Karamouzas
cs.AI
Аннотация
Мы представляем метод глубокого обучения для составного и целеориентированного управления движением физически симулируемых персонажей. В отличие от существующих подходов, основанных на данных и использующих обучение с подкреплением для имитации движений всего тела, мы обучаем раздельные движения для конкретных частей тела одновременно и напрямую, используя несколько дискриминаторов в GAN-подобной архитектуре. В этом процессе не требуется ручной работы для создания составных эталонных движений для обучения. Вместо этого политика управления самостоятельно исследует, как составные движения могут быть автоматически объединены. Мы также учитываем несколько целевых вознаграждений и обучаем единую политику управления с несколькими целями. Для этого мы предлагаем новую структуру для многозадачного обучения, которая адаптивно балансирует обучение разнородным движениям из нескольких источников и нескольким целеориентированным задачам управления. Кроме того, поскольку составные движения обычно являются расширением более простых поведений, мы вводим метод, эффективный по выборкам, для обучения составных политик управления инкрементальным способом, где мы повторно используем предварительно обученную политику как метаполитику и обучаем кооперативную политику, которая адаптирует метаполитику для новых составных задач. Мы демонстрируем применимость нашего подхода на различных сложных многозадачных задачах, включающих как имитацию составных движений, так и несколько целеориентированных задач управления.
English
We present a deep learning method for composite and task-driven motion
control for physically simulated characters. In contrast to existing
data-driven approaches using reinforcement learning that imitate full-body
motions, we learn decoupled motions for specific body parts from multiple
reference motions simultaneously and directly by leveraging the use of multiple
discriminators in a GAN-like setup. In this process, there is no need of any
manual work to produce composite reference motions for learning. Instead, the
control policy explores by itself how the composite motions can be combined
automatically. We further account for multiple task-specific rewards and train
a single, multi-objective control policy. To this end, we propose a novel
framework for multi-objective learning that adaptively balances the learning of
disparate motions from multiple sources and multiple goal-directed control
objectives. In addition, as composite motions are typically augmentations of
simpler behaviors, we introduce a sample-efficient method for training
composite control policies in an incremental manner, where we reuse a
pre-trained policy as the meta policy and train a cooperative policy that
adapts the meta one for new composite tasks. We show the applicability of our
approach on a variety of challenging multi-objective tasks involving both
composite motion imitation and multiple goal-directed control.