ChatPaper.aiChatPaper

Aprendizado de Controle de Locomoção H-Infinito

Learning H-Infinity Locomotion Control

April 22, 2024
Autores: Junfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang
cs.AI

Resumo

A locomoção estável em ambientes íngremes é uma capacidade essencial para robôs quadrúpedes, exigindo a habilidade de resistir a diversas perturbações externas. No entanto, políticas recentes baseadas em aprendizado utilizam apenas randomização básica de domínio para melhorar a robustez das políticas aprendidas, o que não garante que o robô possua capacidades adequadas de resistência a perturbações. Neste artigo, propomos modelar o processo de aprendizado como uma interação adversária entre o ator e um perturbador recém-introduzido, garantindo sua otimização com uma restrição H_{infty}. Em contraste com o ator, que maximiza a recompensa total descontada, o perturbador é responsável por gerar forças externas eficazes e é otimizado maximizando o erro entre a recompensa da tarefa e seu oráculo, ou seja, o "custo" em cada iteração. Para manter a otimização conjunta entre o ator e o perturbador estável, nossa restrição H_{infty} impõe um limite na razão entre o custo e a intensidade das forças externas. Por meio da interação recíproca ao longo da fase de treinamento, o ator pode adquirir a capacidade de lidar com perturbações físicas cada vez mais complexas. Verificamos a robustez de nossa abordagem em tarefas de locomoção quadrúpede com o robô Unitree Aliengo, e também em uma tarefa mais desafiadora com o robô Unitree A1, onde o quadrúpede deve realizar a locomoção apenas nas patas traseiras, como se fosse um robô bípede. Os resultados quantitativos simulados mostram melhorias em relação às linhas de base, demonstrando a eficácia do método e de cada escolha de projeto. Por outro lado, experimentos com robôs reais exibem qualitativamente quão robusta é a política ao enfrentar diversas perturbações em vários terrenos, incluindo escadas, plataformas elevadas, inclinações e superfícies escorregadias. Todo o código, checkpoints e orientações para implantação no mundo real serão disponibilizados publicamente.
English
Stable locomotion in precipitous environments is an essential capability of quadruped robots, demanding the ability to resist various external disturbances. However, recent learning-based policies only use basic domain randomization to improve the robustness of learned policies, which cannot guarantee that the robot has adequate disturbance resistance capabilities. In this paper, we propose to model the learning process as an adversarial interaction between the actor and a newly introduced disturber and ensure their optimization with H_{infty} constraint. In contrast to the actor that maximizes the discounted overall reward, the disturber is responsible for generating effective external forces and is optimized by maximizing the error between the task reward and its oracle, i.e., "cost" in each iteration. To keep joint optimization between the actor and the disturber stable, our H_{infty} constraint mandates the bound of ratio between the cost to the intensity of the external forces. Through reciprocal interaction throughout the training phase, the actor can acquire the capability to navigate increasingly complex physical disturbances. We verify the robustness of our approach on quadrupedal locomotion tasks with Unitree Aliengo robot, and also a more challenging task with Unitree A1 robot, where the quadruped is expected to perform locomotion merely on its hind legs as if it is a bipedal robot. The simulated quantitative results show improvement against baselines, demonstrating the effectiveness of the method and each design choice. On the other hand, real-robot experiments qualitatively exhibit how robust the policy is when interfering with various disturbances on various terrains, including stairs, high platforms, slopes, and slippery terrains. All code, checkpoints, and real-world deployment guidance will be made public.
PDF71December 15, 2024