Het leren van H-oneindig bewegingscontrole
Learning H-Infinity Locomotion Control
April 22, 2024
Auteurs: Junfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang
cs.AI
Samenvatting
Stabiele voortbeweging in steile omgevingen is een essentiële vaardigheid voor viervoetige robots, wat het vermogen vereist om verschillende externe verstoringen te weerstaan. Recente op leren gebaseerde beleidsregels gebruiken echter alleen basis domeinrandomisatie om de robuustheid van geleerde beleidsregels te verbeteren, wat niet kan garanderen dat de robot voldoende verstoringsweerstand heeft. In dit artikel stellen we voor om het leerproces te modelleren als een adversariële interactie tussen de actor en een nieuw geïntroduceerde verstorer, en zorgen we voor hun optimalisatie met een H_{infty}-beperking. In tegenstelling tot de actor, die het gedisconteerde totale beloningssignaal maximaliseert, is de verstorer verantwoordelijk voor het genereren van effectieve externe krachten en wordt deze geoptimaliseerd door de fout tussen de taakbeloning en zijn orakel, d.w.z. "kosten" in elke iteratie, te maximaliseren. Om de gezamenlijke optimalisatie tussen de actor en de verstorer stabiel te houden, vereist onze H_{infty}-beperking een bovengrens voor de verhouding tussen de kosten en de intensiteit van de externe krachten. Door wederzijdse interactie gedurende de trainingsfase kan de actor het vermogen verwerven om steeds complexere fysieke verstoringen te navigeren. We verifiëren de robuustheid van onze aanpak op viervoetige voortbewegingstaken met de Unitree Aliengo-robot, en ook op een uitdagender taak met de Unitree A1-robot, waarbij de viervoeter alleen op zijn achterpoten moet voortbewegen alsof het een tweevoetige robot is. De gesimuleerde kwantitatieve resultaten tonen verbetering ten opzichte van de basislijnen, wat de effectiviteit van de methode en elke ontwerpkeuze aantoont. Aan de andere kant laten experimenten met echte robots kwalitatief zien hoe robuust het beleid is bij het omgaan met verschillende verstoringen op diverse terreinen, waaronder trappen, hoge platforms, hellingen en gladde terreinen. Alle code, checkpoints en richtlijnen voor implementatie in de echte wereld zullen openbaar worden gemaakt.
English
Stable locomotion in precipitous environments is an essential capability of
quadruped robots, demanding the ability to resist various external
disturbances. However, recent learning-based policies only use basic domain
randomization to improve the robustness of learned policies, which cannot
guarantee that the robot has adequate disturbance resistance capabilities. In
this paper, we propose to model the learning process as an adversarial
interaction between the actor and a newly introduced disturber and ensure their
optimization with H_{infty} constraint. In contrast to the actor that
maximizes the discounted overall reward, the disturber is responsible for
generating effective external forces and is optimized by maximizing the error
between the task reward and its oracle, i.e., "cost" in each iteration. To keep
joint optimization between the actor and the disturber stable, our H_{infty}
constraint mandates the bound of ratio between the cost to the intensity of the
external forces. Through reciprocal interaction throughout the training phase,
the actor can acquire the capability to navigate increasingly complex physical
disturbances. We verify the robustness of our approach on quadrupedal
locomotion tasks with Unitree Aliengo robot, and also a more challenging task
with Unitree A1 robot, where the quadruped is expected to perform locomotion
merely on its hind legs as if it is a bipedal robot. The simulated quantitative
results show improvement against baselines, demonstrating the effectiveness of
the method and each design choice. On the other hand, real-robot experiments
qualitatively exhibit how robust the policy is when interfering with various
disturbances on various terrains, including stairs, high platforms, slopes, and
slippery terrains. All code, checkpoints, and real-world deployment guidance
will be made public.