Обучение гладким линейным политикам, зависящим от времени, с использованием штрафа за якобиан действий

Аннотация

Обучение с подкреплением предоставляет основу для изучения управляющих стратегий, способных воспроизводить разнообразные движения для симулированных персонажей. Однако такие стратегии часто используют неестественные высокочастотные сигналы, недостижимые для людей или физических роботов, что делает их плохим представлением реального поведения. Существующие подходы решают эту проблему путем добавления члена вознаграждения, который штрафует за большое изменение действий во времени. Этот член часто требует значительных усилий по настройке. Мы предлагаем использовать штраф за якобиан действий, который напрямую через автоматическое дифференцирование штрафует изменения действий по отношению к изменениям симулированного состояния. Это эффективно устраняет нереалистичные высокочастотные управляющие сигналы без специфичной для задачи настройки. Хотя и эффективный, штраф за якобиан действий вводит значительные вычислительные затраты при использовании с традиционными полносвязными архитектурами нейронных сетей. Чтобы смягчить это, мы представляем новую архитектуру под названием Linear Policy Net (LPN), которая значительно снижает вычислительную нагрузку для расчета штрафа за якобиан действий во время обучения. Кроме того, LPN не требует настройки параметров, демонстрирует более быструю сходимость обучения по сравнению с базовыми методами и может обрабатываться более эффективно во время вывода по сравнению с полносвязной нейронной сетью. Мы показываем, что Linear Policy Net в сочетании со штрафом за якобиан действий способна изучать стратегии, генерирующие гладкие сигналы, одновременно решая ряд задач имитации движений с различными характеристиками, включая динамические движения, такие как сальто назад, и различные сложные паркур-навыки. Наконец, мы применяем этот подход для создания стратегий динамических движений на физическом четвероногом роботе, оснащенном манипулятором.

English

Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.

Обучение гладким линейным политикам, зависящим от времени, с использованием штрафа за якобиан действий

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Аннотация

Support