Aprendizado de Movimento Composto com Controle de Tarefas

Resumo

Apresentamos um método de aprendizado profundo para controle de movimento composto e orientado por tarefas em personagens simulados fisicamente. Em contraste com as abordagens baseadas em dados existentes que utilizam aprendizado por reforço para imitar movimentos de corpo inteiro, aprendemos movimentos desacoplados para partes específicas do corpo a partir de múltiplos movimentos de referência simultaneamente e diretamente, aproveitando o uso de múltiplos discriminadores em uma configuração semelhante a GAN. Nesse processo, não há necessidade de trabalho manual para produzir movimentos de referência compostos para o aprendizado. Em vez disso, a política de controle explora por si mesma como os movimentos compostos podem ser combinados automaticamente. Além disso, consideramos múltiplas recompensas específicas de tarefas e treinamos uma única política de controle multiobjetivo. Para isso, propomos uma nova estrutura para aprendizado multiobjetivo que equilibra de forma adaptativa o aprendizado de movimentos distintos de múltiplas fontes e múltiplos objetivos de controle orientados por metas. Adicionalmente, como movimentos compostos são tipicamente ampliações de comportamentos mais simples, introduzimos um método eficiente em termos de amostras para treinar políticas de controle compostas de maneira incremental, onde reutilizamos uma política pré-treinada como a política meta e treinamos uma política cooperativa que adapta a política meta para novas tarefas compostas. Demonstramos a aplicabilidade de nossa abordagem em uma variedade de tarefas multiobjetivo desafiadoras, envolvendo tanto imitação de movimento composto quanto múltiplos controles orientados por metas.

English

We present a deep learning method for composite and task-driven motion control for physically simulated characters. In contrast to existing data-driven approaches using reinforcement learning that imitate full-body motions, we learn decoupled motions for specific body parts from multiple reference motions simultaneously and directly by leveraging the use of multiple discriminators in a GAN-like setup. In this process, there is no need of any manual work to produce composite reference motions for learning. Instead, the control policy explores by itself how the composite motions can be combined automatically. We further account for multiple task-specific rewards and train a single, multi-objective control policy. To this end, we propose a novel framework for multi-objective learning that adaptively balances the learning of disparate motions from multiple sources and multiple goal-directed control objectives. In addition, as composite motions are typically augmentations of simpler behaviors, we introduce a sample-efficient method for training composite control policies in an incremental manner, where we reuse a pre-trained policy as the meta policy and train a cooperative policy that adapts the meta one for new composite tasks. We show the applicability of our approach on a variety of challenging multi-objective tasks involving both composite motion imitation and multiple goal-directed control.

Aprendizado de Movimento Composto com Controle de Tarefas

Composite Motion Learning with Task Control

Resumo

Support