Lernen von H-Infinity-Laufsteuerung
Learning H-Infinity Locomotion Control
April 22, 2024
Autoren: Junfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang
cs.AI
Zusammenfassung
Stabile Fortbewegung in steilen Umgebungen ist eine wesentliche Fähigkeit von Vierbein-Robotern, die die Fähigkeit erfordert, verschiedenen externen Störungen zu widerstehen. Allerdings nutzen aktuelle lernbasierte Richtlinien nur grundlegende Domänenrandomisierung, um die Robustheit der erlernten Richtlinien zu verbessern, was nicht garantieren kann, dass der Roboter über angemessene Störungswiderstandsfähigkeiten verfügt. In diesem Artikel schlagen wir vor, den Lernprozess als eine antagonistische Interaktion zwischen dem Akteur und einem neu eingeführten Störer zu modellieren und ihre Optimierung mit einer H_{infty}-Beschränkung sicherzustellen. Im Gegensatz zum Akteur, der die insgesamt rabattierten Belohnungen maximiert, ist der Störer dafür verantwortlich, effektive externe Kräfte zu erzeugen und wird durch Maximierung des Fehlers zwischen der Aufgabenbelohnung und seinem Orakel optimiert, d.h. "Kosten" in jeder Iteration. Um die gemeinsame Optimierung zwischen dem Akteur und dem Störer stabil zu halten, schreibt unsere H_{infty}-Beschränkung die Begrenzung des Verhältnisses zwischen den Kosten und der Intensität der externen Kräfte vor. Durch wechselseitige Interaktion während der Schulungsphase kann der Akteur die Fähigkeit erlangen, sich durch zunehmend komplexe physische Störungen zu bewegen. Wir überprüfen die Robustheit unseres Ansatzes an Vierbein-Fortbewegungsaufgaben mit dem Unitree Aliengo-Roboter und auch an einer anspruchsvolleren Aufgabe mit dem Unitree A1-Roboter, bei der erwartet wird, dass der Vierbeiner sich nur auf seinen Hinterbeinen fortbewegt, als ob er ein zweibeiniger Roboter wäre. Die simulierten quantitativen Ergebnisse zeigen Verbesserungen gegenüber Basislinien und demonstrieren die Wirksamkeit der Methode und jeder Designentscheidung. Andererseits zeigen reale Roboterexperimente qualitativ, wie robust die Richtlinie ist, wenn sie mit verschiedenen Störungen auf verschiedenen Geländen, einschließlich Treppen, hohen Plattformen, Hängen und rutschigen Geländen, konfrontiert wird. Der gesamte Code, die Checkpoints und die Anleitung zur Bereitstellung in der realen Welt werden öffentlich zugänglich gemacht.
English
Stable locomotion in precipitous environments is an essential capability of
quadruped robots, demanding the ability to resist various external
disturbances. However, recent learning-based policies only use basic domain
randomization to improve the robustness of learned policies, which cannot
guarantee that the robot has adequate disturbance resistance capabilities. In
this paper, we propose to model the learning process as an adversarial
interaction between the actor and a newly introduced disturber and ensure their
optimization with H_{infty} constraint. In contrast to the actor that
maximizes the discounted overall reward, the disturber is responsible for
generating effective external forces and is optimized by maximizing the error
between the task reward and its oracle, i.e., "cost" in each iteration. To keep
joint optimization between the actor and the disturber stable, our H_{infty}
constraint mandates the bound of ratio between the cost to the intensity of the
external forces. Through reciprocal interaction throughout the training phase,
the actor can acquire the capability to navigate increasingly complex physical
disturbances. We verify the robustness of our approach on quadrupedal
locomotion tasks with Unitree Aliengo robot, and also a more challenging task
with Unitree A1 robot, where the quadruped is expected to perform locomotion
merely on its hind legs as if it is a bipedal robot. The simulated quantitative
results show improvement against baselines, demonstrating the effectiveness of
the method and each design choice. On the other hand, real-robot experiments
qualitatively exhibit how robust the policy is when interfering with various
disturbances on various terrains, including stairs, high platforms, slopes, and
slippery terrains. All code, checkpoints, and real-world deployment guidance
will be made public.Summary
AI-Generated Summary