Het Leren van Vloeiende Tijdvariërende Lineaire Beleidsregels met een Jacobiaan-straf voor Acties

Samenvatting

Versterkend leren biedt een raamwerk voor het leren van besturingsbeleid dat diverse bewegingen voor gesimuleerde karakters kan reproduceren. Dergelijk beleid maakt echter vaak gebruik van onnatuurlijke hoogfrequente signalen die niet haalbaar zijn voor mensen of fysieke robots, waardoor ze slechte representaties zijn van real-world gedrag. Bestaand werk lost dit op door een beloningsterm toe te voegen die grote veranderingen in acties over de tijd bestraft. Deze term vereist vaak aanzienlijke afstelinspanningen. Wij stellen voor om de actie-Jacobiaan-straf te gebruiken, die veranderingen in actie direct bestraft met betrekking tot veranderingen in de gesimuleerde toestand via automatische differentiatie. Dit elimineert effectief onrealistische hoogfrequente besturingssignalen zonder taakspecifieke afstelling. Hoewel effectief, introduceert de actie-Jacobiaan-straf een aanzienlijke rekenkundige overhead bij gebruik met traditionele volledig verbonden neurale netwerkarchitecturen. Om dit te verminderen, introduceren we een nieuwe architectuur genaamd een Lineair Beleidsnet (LPN) die de rekenlast voor het berekenen van de actie-Jacobiaan-straf tijdens de training aanzienlijk vermindert. Bovendien vereist een LPN geen parameterafstelling, vertoont het een snellere leerconvergentie vergeleken met baseline-methoden, en kan het efficiënter worden bevraagd tijdens inferentie vergeleken met een volledig verbonden neuraal netwerk. We tonen aan dat een Lineair Beleidsnet, gecombineerd met de actie-Jacobiaan-straf, in staat is beleid te leren dat gladde signalen genereert terwijl het een aantal beweging imitatietaken met verschillende kenmerken oplost, inclusief dynamische bewegingen zoals een backflip en diverse uitdagende parkourvaardigheden. Ten slotte passen we deze aanpak toe om beleid te creëren voor dynamische bewegingen op een fysieke viervoetige robot uitgerust met een arm.

English

Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.

Het Leren van Vloeiende Tijdvariërende Lineaire Beleidsregels met een Jacobiaan-straf voor Acties

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Samenvatting

Support