Apprentissage du Contrôle de Locomotion H-Infini

papers.abstract

La locomotion stable dans des environnements escarpés est une capacité essentielle pour les robots quadrupèdes, nécessitant la capacité à résister à diverses perturbations externes. Cependant, les politiques récentes basées sur l'apprentissage n'utilisent qu'une randomisation de domaine basique pour améliorer la robustesse des politiques apprises, ce qui ne garantit pas que le robot possède des capacités de résistance aux perturbations adéquates. Dans cet article, nous proposons de modéliser le processus d'apprentissage comme une interaction antagoniste entre l'acteur et un perturbateur nouvellement introduit, et d'assurer leur optimisation avec une contrainte H_{infty}. Contrairement à l'acteur qui maximise la récompense globale actualisée, le perturbateur est chargé de générer des forces externes efficaces et est optimisé en maximisant l'erreur entre la récompense de la tâche et son oracle, c'est-à-dire le "coût" à chaque itération. Pour maintenir l'optimisation conjointe entre l'acteur et le perturbateur stable, notre contrainte H_{infty} impose une limite au rapport entre le coût et l'intensité des forces externes. Grâce à une interaction réciproque tout au long de la phase d'entraînement, l'acteur peut acquérir la capacité à naviguer face à des perturbations physiques de plus en plus complexes. Nous vérifions la robustesse de notre approche sur des tâches de locomotion quadrupède avec le robot Unitree Aliengo, ainsi qu'une tâche plus difficile avec le robot Unitree A1, où le quadrupède est censé effectuer une locomotion uniquement sur ses pattes arrière comme s'il s'agissait d'un robot bipède. Les résultats quantitatifs simulés montrent une amélioration par rapport aux bases de référence, démontrant l'efficacité de la méthode et de chaque choix de conception. D'autre part, les expériences sur robot réel montrent qualitativement à quel point la politique est robuste face à diverses perturbations sur différents terrains, y compris des escaliers, des plateformes élevées, des pentes et des terrains glissants. Tous les codes, points de contrôle et guides de déploiement en conditions réelles seront rendus publics.

English

Stable locomotion in precipitous environments is an essential capability of quadruped robots, demanding the ability to resist various external disturbances. However, recent learning-based policies only use basic domain randomization to improve the robustness of learned policies, which cannot guarantee that the robot has adequate disturbance resistance capabilities. In this paper, we propose to model the learning process as an adversarial interaction between the actor and a newly introduced disturber and ensure their optimization with H_{infty} constraint. In contrast to the actor that maximizes the discounted overall reward, the disturber is responsible for generating effective external forces and is optimized by maximizing the error between the task reward and its oracle, i.e., "cost" in each iteration. To keep joint optimization between the actor and the disturber stable, our H_{infty} constraint mandates the bound of ratio between the cost to the intensity of the external forces. Through reciprocal interaction throughout the training phase, the actor can acquire the capability to navigate increasingly complex physical disturbances. We verify the robustness of our approach on quadrupedal locomotion tasks with Unitree Aliengo robot, and also a more challenging task with Unitree A1 robot, where the quadruped is expected to perform locomotion merely on its hind legs as if it is a bipedal robot. The simulated quantitative results show improvement against baselines, demonstrating the effectiveness of the method and each design choice. On the other hand, real-robot experiments qualitatively exhibit how robust the policy is when interfering with various disturbances on various terrains, including stairs, high platforms, slopes, and slippery terrains. All code, checkpoints, and real-world deployment guidance will be made public.

Apprentissage du Contrôle de Locomotion H-Infini

Learning H-Infinity Locomotion Control

papers.abstract

Support