Aprendizaje de Políticas Lineales Suaves Variantes en el Tiempo con una Penalización del Jacobiano de la Acción

Resumen

El aprendizaje por refuerzo proporciona un marco para aprender políticas de control que pueden reproducir diversos movimientos para personajes simulados. Sin embargo, dichas políticas a menudo explotan señales antinaturales de alta frecuencia que son inalcanzables para humanos o robots físicos, lo que las convierte en representaciones deficientes de comportamientos del mundo real. Los trabajos existentes abordan este problema añadiendo un término de recompensa que penaliza un cambio grande en las acciones a lo largo del tiempo. Este término a menudo requiere esfuerzos de ajuste sustanciales. Proponemos utilizar la penalización del Jacobiano de la acción, que penaliza los cambios en la acción con respecto a los cambios en el estado simulado directamente mediante diferenciación automática. Esto elimina eficazmente las señales de control irreales de alta frecuencia sin necesidad de ajustes específicos para la tarea. Si bien es efectiva, la penalización del Jacobiano de la acción introduce una sobrecarga computacional significativa cuando se utiliza con arquitecturas tradicionales de redes neuronales totalmente conectadas. Para mitigar esto, introducimos una nueva arquitectura llamada Red de Política Lineal (LPN, por sus siglas en inglés) que reduce significativamente la carga computacional para calcular la penalización del Jacobiano de la acción durante el entrenamiento. Además, una LPN no requiere ajuste de parámetros, exhibe una convergencia de aprendizaje más rápida en comparación con los métodos de referencia y puede consultarse de manera más eficiente durante el tiempo de inferencia en comparación con una red neuronal totalmente conectada. Demostramos que una Red de Política Lineal, combinada con la penalización del Jacobiano de la acción, es capaz de aprender políticas que generan señales suaves mientras resuelve una serie de tareas de imitación de movimiento con diferentes características, incluyendo movimientos dinámicos como un salto mortal hacia atrás y varias habilidades desafiantes de parkour. Finalmente, aplicamos este enfoque para crear políticas para movimientos dinámicos en un robot cuadrúpedo físico equipado con un brazo.

English

Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.

Aprendizaje de Políticas Lineales Suaves Variantes en el Tiempo con una Penalización del Jacobiano de la Acción

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Resumen

Support