Apprendimento del Controllo Locomotivo H-Infinito

Abstract

La locomozione stabile in ambienti impervi è una capacità essenziale per i robot quadrupedi, che richiede la capacità di resistere a vari disturbi esterni. Tuttavia, le politiche basate sull'apprendimento recenti utilizzano solo una semplice randomizzazione del dominio per migliorare la robustezza delle politiche apprese, il che non può garantire che il robot abbia adeguate capacità di resistenza ai disturbi. In questo articolo, proponiamo di modellare il processo di apprendimento come un'interazione avversaria tra l'attore e un nuovo disturbatore introdotto, e di garantire la loro ottimizzazione con un vincolo H_{infty}. A differenza dell'attore che massimizza la ricompensa complessiva scontata, il disturbatore è responsabile della generazione di forze esterne efficaci ed è ottimizzato massimizzando l'errore tra la ricompensa del compito e il suo oracolo, cioè il "costo" in ogni iterazione. Per mantenere stabile l'ottimizzazione congiunta tra l'attore e il disturbatore, il nostro vincolo H_{infty} impone il limite del rapporto tra il costo e l'intensità delle forze esterne. Attraverso l'interazione reciproca durante la fase di addestramento, l'attore può acquisire la capacità di navigare in disturbi fisici sempre più complessi. Verifichiamo la robustezza del nostro approccio su compiti di locomozione quadrupedale con il robot Unitree Aliengo, e anche su un compito più impegnativo con il robot Unitree A1, dove si prevede che il quadrupede esegua la locomozione solo sulle zampe posteriori come se fosse un robot bipede. I risultati quantitativi simulati mostrano un miglioramento rispetto ai baselines, dimostrando l'efficacia del metodo e di ogni scelta progettuale. D'altra parte, gli esperimenti con robot reali mostrano qualitativamente quanto sia robusta la politica quando interferisce con vari disturbi su vari terreni, tra cui scale, piattaforme alte, pendii e terreni scivolosi. Tutto il codice, i checkpoint e le linee guida per il dispiegamento nel mondo reale saranno resi pubblici.

English

Stable locomotion in precipitous environments is an essential capability of quadruped robots, demanding the ability to resist various external disturbances. However, recent learning-based policies only use basic domain randomization to improve the robustness of learned policies, which cannot guarantee that the robot has adequate disturbance resistance capabilities. In this paper, we propose to model the learning process as an adversarial interaction between the actor and a newly introduced disturber and ensure their optimization with H_{infty} constraint. In contrast to the actor that maximizes the discounted overall reward, the disturber is responsible for generating effective external forces and is optimized by maximizing the error between the task reward and its oracle, i.e., "cost" in each iteration. To keep joint optimization between the actor and the disturber stable, our H_{infty} constraint mandates the bound of ratio between the cost to the intensity of the external forces. Through reciprocal interaction throughout the training phase, the actor can acquire the capability to navigate increasingly complex physical disturbances. We verify the robustness of our approach on quadrupedal locomotion tasks with Unitree Aliengo robot, and also a more challenging task with Unitree A1 robot, where the quadruped is expected to perform locomotion merely on its hind legs as if it is a bipedal robot. The simulated quantitative results show improvement against baselines, demonstrating the effectiveness of the method and each design choice. On the other hand, real-robot experiments qualitatively exhibit how robust the policy is when interfering with various disturbances on various terrains, including stairs, high platforms, slopes, and slippery terrains. All code, checkpoints, and real-world deployment guidance will be made public.

Apprendimento del Controllo Locomotivo H-Infinito

Learning H-Infinity Locomotion Control

Abstract

Support