ChatPaper.aiChatPaper

Aprendizaje de Control de Locomoción H-Infinito

Learning H-Infinity Locomotion Control

April 22, 2024
Autores: Junfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang
cs.AI

Resumen

La locomoción estable en entornos abruptos es una capacidad esencial de los robots cuadrúpedos, que exige la habilidad de resistir diversas perturbaciones externas. Sin embargo, las políticas basadas en aprendizaje recientes solo utilizan una aleatorización básica del dominio para mejorar la robustez de las políticas aprendidas, lo que no garantiza que el robot tenga capacidades adecuadas de resistencia a perturbaciones. En este artículo, proponemos modelar el proceso de aprendizaje como una interacción adversarial entre el actor y un nuevo perturbador, asegurando su optimización con una restricción H_{infty}. A diferencia del actor, que maximiza la recompensa total descontada, el perturbador es responsable de generar fuerzas externas efectivas y se optimiza maximizando el error entre la recompensa de la tarea y su oráculo, es decir, el "costo" en cada iteración. Para mantener estable la optimización conjunta entre el actor y el perturbador, nuestra restricción H_{infty} impone un límite en la relación entre el costo y la intensidad de las fuerzas externas. A través de la interacción recíproca durante la fase de entrenamiento, el actor puede adquirir la capacidad de navegar perturbaciones físicas cada vez más complejas. Verificamos la robustez de nuestro enfoque en tareas de locomoción cuadrúpeda con el robot Unitree Aliengo, y también en una tarea más desafiante con el robot Unitree A1, donde se espera que el cuadrúpedo realice locomoción únicamente sobre sus patas traseras, como si fuera un robot bípedo. Los resultados cuantitativos simulados muestran mejoras frente a los baselines, demostrando la efectividad del método y cada elección de diseño. Por otro lado, los experimentos con robots reales exhiben cualitativamente cuán robusta es la política al interferir con diversas perturbaciones en varios terrenos, incluyendo escaleras, plataformas altas, pendientes y terrenos resbaladizos. Todo el código, puntos de control y guías de implementación en el mundo real se harán públicos.
English
Stable locomotion in precipitous environments is an essential capability of quadruped robots, demanding the ability to resist various external disturbances. However, recent learning-based policies only use basic domain randomization to improve the robustness of learned policies, which cannot guarantee that the robot has adequate disturbance resistance capabilities. In this paper, we propose to model the learning process as an adversarial interaction between the actor and a newly introduced disturber and ensure their optimization with H_{infty} constraint. In contrast to the actor that maximizes the discounted overall reward, the disturber is responsible for generating effective external forces and is optimized by maximizing the error between the task reward and its oracle, i.e., "cost" in each iteration. To keep joint optimization between the actor and the disturber stable, our H_{infty} constraint mandates the bound of ratio between the cost to the intensity of the external forces. Through reciprocal interaction throughout the training phase, the actor can acquire the capability to navigate increasingly complex physical disturbances. We verify the robustness of our approach on quadrupedal locomotion tasks with Unitree Aliengo robot, and also a more challenging task with Unitree A1 robot, where the quadruped is expected to perform locomotion merely on its hind legs as if it is a bipedal robot. The simulated quantitative results show improvement against baselines, demonstrating the effectiveness of the method and each design choice. On the other hand, real-robot experiments qualitatively exhibit how robust the policy is when interfering with various disturbances on various terrains, including stairs, high platforms, slopes, and slippery terrains. All code, checkpoints, and real-world deployment guidance will be made public.

Summary

AI-Generated Summary

PDF71December 15, 2024