Apprentissage de politiques linéaires temporellement lisses avec une pénalité sur le jacobien de l’action

papers.abstract

L'apprentissage par renforcement fournit un cadre pour apprendre des politiques de contrôle capables de reproduire des mouvements divers pour des personnages simulés. Cependant, ces politiques exploitent souvent des signaux haute fréquence non naturels, inatteignables par des humains ou des robots physiques, ce qui en fait de mauvaises représentations des comportements du monde réel. Les travaux existants abordent ce problème en ajoutant un terme de récompense qui pénalise un changement important des actions dans le temps. Ce terme nécessite souvent des efforts de réglage considérables. Nous proposons d'utiliser la pénalité du Jacobien de l'action, qui pénalise directement les variations de l'action par rapport aux changements d'état simulé via la différenciation automatique. Cela élimine efficacement les signaux de contrôle haute fréquence irréalistes sans réglage spécifique à la tâche. Bien qu'efficace, la pénalité du Jacobien de l'action introduit une surcharge computationnelle significative lorsqu'elle est utilisée avec les architectures de réseaux de neurones entièrement connectés traditionnels. Pour atténuer ceci, nous introduisons une nouvelle architecture appelée Réseau de Politique Linéaire (Linear Policy Net, LPN) qui réduit considérablement la charge computationnelle pour calculer la pénalité du Jacobien de l'action pendant l'entraînement. De plus, un LPN ne nécessite aucun réglage de paramètre, présente une convergence d'apprentissage plus rapide que les méthodes de référence, et peut être interrogé plus efficacement pendant l'inférence comparé à un réseau de neurones entièrement connecté. Nous démontrons qu'un Réseau de Politique Linéaire, combiné à la pénalité du Jacobien de l'action, est capable d'apprendre des politiques qui génèrent des signaux lisses tout en résolvant un certain nombre de tâches d'imitation de mouvement avec des caractéristiques différentes, y compris des mouvements dynamiques tels qu'un salto arrière et diverses compétences de parkour exigeantes. Enfin, nous appliquons cette approche pour créer des politiques pour des mouvements dynamiques sur un robot quadrupède physique équipé d'un bras.

English

Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.

Apprentissage de politiques linéaires temporellement lisses avec une pénalité sur le jacobien de l’action

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

papers.abstract

Support