Het leren van H-oneindig bewegingscontrole

Samenvatting

Stabiele voortbeweging in steile omgevingen is een essentiële vaardigheid voor viervoetige robots, wat het vermogen vereist om verschillende externe verstoringen te weerstaan. Recente op leren gebaseerde beleidsregels gebruiken echter alleen basis domeinrandomisatie om de robuustheid van geleerde beleidsregels te verbeteren, wat niet kan garanderen dat de robot voldoende verstoringsweerstand heeft. In dit artikel stellen we voor om het leerproces te modelleren als een adversariële interactie tussen de actor en een nieuw geïntroduceerde verstorer, en zorgen we voor hun optimalisatie met een H_{infty}-beperking. In tegenstelling tot de actor, die het gedisconteerde totale beloningssignaal maximaliseert, is de verstorer verantwoordelijk voor het genereren van effectieve externe krachten en wordt deze geoptimaliseerd door de fout tussen de taakbeloning en zijn orakel, d.w.z. "kosten" in elke iteratie, te maximaliseren. Om de gezamenlijke optimalisatie tussen de actor en de verstorer stabiel te houden, vereist onze H_{infty}-beperking een bovengrens voor de verhouding tussen de kosten en de intensiteit van de externe krachten. Door wederzijdse interactie gedurende de trainingsfase kan de actor het vermogen verwerven om steeds complexere fysieke verstoringen te navigeren. We verifiëren de robuustheid van onze aanpak op viervoetige voortbewegingstaken met de Unitree Aliengo-robot, en ook op een uitdagender taak met de Unitree A1-robot, waarbij de viervoeter alleen op zijn achterpoten moet voortbewegen alsof het een tweevoetige robot is. De gesimuleerde kwantitatieve resultaten tonen verbetering ten opzichte van de basislijnen, wat de effectiviteit van de methode en elke ontwerpkeuze aantoont. Aan de andere kant laten experimenten met echte robots kwalitatief zien hoe robuust het beleid is bij het omgaan met verschillende verstoringen op diverse terreinen, waaronder trappen, hoge platforms, hellingen en gladde terreinen. Alle code, checkpoints en richtlijnen voor implementatie in de echte wereld zullen openbaar worden gemaakt.

English

Stable locomotion in precipitous environments is an essential capability of quadruped robots, demanding the ability to resist various external disturbances. However, recent learning-based policies only use basic domain randomization to improve the robustness of learned policies, which cannot guarantee that the robot has adequate disturbance resistance capabilities. In this paper, we propose to model the learning process as an adversarial interaction between the actor and a newly introduced disturber and ensure their optimization with H_{infty} constraint. In contrast to the actor that maximizes the discounted overall reward, the disturber is responsible for generating effective external forces and is optimized by maximizing the error between the task reward and its oracle, i.e., "cost" in each iteration. To keep joint optimization between the actor and the disturber stable, our H_{infty} constraint mandates the bound of ratio between the cost to the intensity of the external forces. Through reciprocal interaction throughout the training phase, the actor can acquire the capability to navigate increasingly complex physical disturbances. We verify the robustness of our approach on quadrupedal locomotion tasks with Unitree Aliengo robot, and also a more challenging task with Unitree A1 robot, where the quadruped is expected to perform locomotion merely on its hind legs as if it is a bipedal robot. The simulated quantitative results show improvement against baselines, demonstrating the effectiveness of the method and each design choice. On the other hand, real-robot experiments qualitatively exhibit how robust the policy is when interfering with various disturbances on various terrains, including stairs, high platforms, slopes, and slippery terrains. All code, checkpoints, and real-world deployment guidance will be made public.

Het leren van H-oneindig bewegingscontrole

Learning H-Infinity Locomotion Control

Samenvatting

Support