Aprendizado de Políticas Lineares Suaves Variantes no Tempo com uma Penalidade no Jacobiano da Ação

Resumo

A aprendizagem por reforço fornece uma estrutura para aprender políticas de controlo que podem reproduzir movimentos diversos para personagens simuladas. No entanto, tais políticas frequentemente exploram sinais de alta frequência não naturais que são inatingíveis por humanos ou robôs físicos, tornando-as representações fracas de comportamentos do mundo real. Trabalhos existentes abordam esta questão adicionando um termo de recompensa que penaliza uma grande mudança nas ações ao longo do tempo. Este termo frequentemente requer esforços substanciais de afinação. Propomos a utilização da penalidade do Jacobiano da ação, que penaliza mudanças na ação em relação às mudanças no estado simulado diretamente através de diferenciação automática. Isto elimina efetivamente sinais de controlo de alta frequência irreais sem afinação específica da tarefa. Embora eficaz, a penalidade do Jacobiano da ação introduz uma sobrecarga computacional significativa quando utilizada com arquiteturas tradicionais de redes neuronais totalmente conectadas. Para mitigar isto, introduzimos uma nova arquitetura chamada Linear Policy Net (LPN) que reduz significativamente o custo computacional para calcular a penalidade do Jacobiano da ação durante o treino. Além disso, uma LPN não requer afinação de parâmetros, exibe uma convergência de aprendizagem mais rápida em comparação com métodos de base e pode ser consultada mais eficientemente durante o tempo de inferência em comparação com uma rede neuronal totalmente conectada. Demonstramos que uma Linear Policy Net, combinada com a penalidade do Jacobiano da ação, é capaz de aprender políticas que geram sinais suaves enquanto resolve uma série de tarefas de imitação de movimento com características diferentes, incluindo movimentos dinâmicos como um mortal para trás e várias habilidades de parkour desafiadoras. Por fim, aplicamos esta abordagem para criar políticas para movimentos dinâmicos num robô quadrúpede físico equipado com um braço.

English

Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.

Aprendizado de Políticas Lineares Suaves Variantes no Tempo com uma Penalidade no Jacobiano da Ação

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Resumo

Support