Обучение композитным движениям с управлением задачами

Аннотация

Мы представляем метод глубокого обучения для составного и целеориентированного управления движением физически симулируемых персонажей. В отличие от существующих подходов, основанных на данных и использующих обучение с подкреплением для имитации движений всего тела, мы обучаем раздельные движения для конкретных частей тела одновременно и напрямую, используя несколько дискриминаторов в GAN-подобной архитектуре. В этом процессе не требуется ручной работы для создания составных эталонных движений для обучения. Вместо этого политика управления самостоятельно исследует, как составные движения могут быть автоматически объединены. Мы также учитываем несколько целевых вознаграждений и обучаем единую политику управления с несколькими целями. Для этого мы предлагаем новую структуру для многозадачного обучения, которая адаптивно балансирует обучение разнородным движениям из нескольких источников и нескольким целеориентированным задачам управления. Кроме того, поскольку составные движения обычно являются расширением более простых поведений, мы вводим метод, эффективный по выборкам, для обучения составных политик управления инкрементальным способом, где мы повторно используем предварительно обученную политику как метаполитику и обучаем кооперативную политику, которая адаптирует метаполитику для новых составных задач. Мы демонстрируем применимость нашего подхода на различных сложных многозадачных задачах, включающих как имитацию составных движений, так и несколько целеориентированных задач управления.

English

We present a deep learning method for composite and task-driven motion control for physically simulated characters. In contrast to existing data-driven approaches using reinforcement learning that imitate full-body motions, we learn decoupled motions for specific body parts from multiple reference motions simultaneously and directly by leveraging the use of multiple discriminators in a GAN-like setup. In this process, there is no need of any manual work to produce composite reference motions for learning. Instead, the control policy explores by itself how the composite motions can be combined automatically. We further account for multiple task-specific rewards and train a single, multi-objective control policy. To this end, we propose a novel framework for multi-objective learning that adaptively balances the learning of disparate motions from multiple sources and multiple goal-directed control objectives. In addition, as composite motions are typically augmentations of simpler behaviors, we introduce a sample-efficient method for training composite control policies in an incremental manner, where we reuse a pre-trained policy as the meta policy and train a cooperative policy that adapts the meta one for new composite tasks. We show the applicability of our approach on a variety of challenging multi-objective tasks involving both composite motion imitation and multiple goal-directed control.

Обучение композитным движениям с управлением задачами

Composite Motion Learning with Task Control

Аннотация

Support