Apprendimento di Politiche Lineari Temporalmente Variabili e Lisce con una Penalità dello Jacobiano dell'Azione

Abstract

L'apprendimento per rinforzo fornisce un quadro per l'apprendimento di politiche di controllo in grado di riprodurre movimenti diversificati per personaggi simulati. Tuttavia, tali politiche spesso sfruttano segnali ad alta frequenza innaturali, irrealizzabili per esseri umani o robot fisici, rendendole scarse rappresentazioni di comportamenti del mondo reale. I lavori esistenti affrontano questo problema aggiungendo un termine di ricompensa che penalizza ampie variazioni nelle azioni nel tempo. Questo termine richiede spesso notevoli sforzi di ottimizzazione. Proponiamo di utilizzare la penalità dello Jacobiano dell'azione, che penalizza direttamente le variazioni dell'azione rispetto alle variazioni dello stato simulato attraverso la differenziazione automatica. Ciò elimina efficacemente i segnali di controllo irrealistici ad alta frequenza senza necessità di ottimizzazione specifica per il compito. Sebbene efficace, la penalità dello Jacobiano dell'azione introduce un significativo sovraccarico computazionale quando utilizzata con le tradizionali architetture di reti neurali fully connected. Per mitigare ciò, introduciamo una nuova architettura chiamata Linear Policy Net (LPN) che riduce significativamente l'onere computazionale per il calcolo della penalità dello Jacobiano dell'azione durante l'addestramento. Inoltre, una LPN non richiede ottimizzazione dei parametri, mostra una convergenza dell'apprendimento più rapida rispetto ai metodi baseline e può essere interrogata in modo più efficiente durante l'inferenza rispetto a una rete neurale fully connected. Dimostriamo che una Linear Policy Net, combinata con la penalità dello Jacobiano dell'azione, è in grado di apprendere politiche che generano segnali fluidi risolvendo numerosi compiti di imitazione del movimento con caratteristiche diverse, inclusi movimenti dinamici come un backflip e varie abilità di parkour impegnative. Infine, applichiamo questo approccio per creare politiche per movimenti dinamici su un robot quadrupede fisico dotato di un braccio.

English

Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.

Apprendimento di Politiche Lineari Temporalmente Variabili e Lisce con una Penalità dello Jacobiano dell'Azione

Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Abstract

Support