Lernen glatter zeitvarianter linearer Politiken mit einer Aktions-Jacobi-Strafe

papers.abstract

Reinforcement Learning bietet einen Rahmen zum Erlernen von Steuerungsrichtlinien, die verschiedene Bewegungen für simulierte Charaktere reproduzieren können. Solche Richtlinien nutzen jedoch oft unnatürliche Hochfrequenzsignale aus, die von Menschen oder physischen Robotern nicht erreicht werden können, was sie zu schlechten Repräsentationen von Verhaltensweisen in der realen Welt macht. Bestehende Arbeiten behandeln dieses Problem durch Hinzufügen eines Belohnungsterms, der große Änderungen in den Aktionen über die Zeit bestraft. Dieser Term erfordert oft erheblichen Abstimmungsaufwand. Wir schlagen vor, die Action-Jacobian-Strafe zu verwenden, die Änderungen in der Aktion in Bezug auf Änderungen im simulierten Zustand direkt durch automatische Differentiation bestraft. Dies eliminiert unrealistische Hochfrequenzsteuersignale effektiv ohne aufgabenspezifische Abstimmung. Obwohl wirksam, führt die Action-Jacobian-Strafe einen erheblichen Rechenaufwand ein, wenn sie mit traditionellen vollvernetzten neuronalen Netzarchitekturen verwendet wird. Um dies abzumildern, führen wir eine neue Architektur namens Linear Policy Net (LPN) ein, die die Rechenlast für die Berechnung der Action-Jacobian-Strafe während des Trainings erheblich reduziert. Darüber hinaus erfordert ein LPN keine Parameterabstimmung, zeigt eine schnellere Lernkonvergenz im Vergleich zu Baseline-Methoden und kann während der Inferenzzeit effizienter abgefragt werden als ein vollvernetztes neuronales Netz. Wir demonstrieren, dass ein Linear Policy Net in Kombination mit der Action-Jacobian-Strafe in der Lage ist, Richtlinien zu erlernen, die glatte Signale erzeugen und gleichzeitig eine Reihe von Bewegungsimitationsaufgaben mit unterschiedlichen Charakteristiken lösen, einschließlich dynamischer Bewegungen wie einem Rückwärtssalto und verschiedenen anspruchsvollen Parkour-Fertigkeiten. Schließlich wenden wir diesen Ansatz an, um Richtlinien für dynamische Bewegungen auf einem physischen quadrupeden Roboter mit einem Arm zu erstellen.

English

Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.

Lernen glatter zeitvarianter linearer Politiken mit einer Aktions-Jacobi-Strafe

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

papers.abstract

Support