CAJun: Kontinuierliches adaptives Springen mit einem gelernten zentroidalen Controller
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller
June 16, 2023
Autoren: Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots
cs.AI
Zusammenfassung
Wir präsentieren CAJun, ein neuartiges hierarchisches Lern- und Steuerungsframework, das laufenden Robotern ermöglicht, kontinuierlich mit adaptiven Sprungweiten zu springen. CAJun besteht aus einer High-Level-Zentroidal-Policy und einem Low-Level-Beincontroller. Insbesondere verwenden wir Reinforcement Learning (RL), um die Zentroidal-Policy zu trainieren, die den Gangrhythmus, die Basisgeschwindigkeit und die Position des Schwungbeins für den Beincontroller vorgibt. Der Beincontroller optimiert die Motorsteuerbefehle für die Schwung- und Standbeine gemäß dem Gangrhythmus, um das Schwungbeinziel und die Basisgeschwindigkeitsbefehle mithilfe optimaler Steuerung zu verfolgen. Zusätzlich reformulieren wir den Standbein-Optimierer im Beincontroller, um die Policy-Trainingsgeschwindigkeit um eine Größenordnung zu erhöhen. Unser System kombiniert die Vielseitigkeit des Lernens mit der Robustheit optimaler Steuerung. Durch die Kombination von RL mit Methoden der optimalen Steuerung erreicht unser System die Vielseitigkeit des Lernens und profitiert gleichzeitig von der Robustheit der Steuerungsmethoden, was es leicht auf reale Roboter übertragbar macht. Wir zeigen, dass CAJun nach 20 Minuten Training auf einer einzelnen GPU kontinuierliche, lange Sprünge mit adaptiven Weiten auf einem Go1-Roboter mit geringen Sim-to-Real-Lücken erreichen kann. Darüber hinaus kann der Roboter über Lücken mit einer maximalen Breite von 70 cm springen, was über 40 % breiter ist als bei bestehenden Methoden.
English
We present CAJun, a novel hierarchical learning and control framework that
enables legged robots to jump continuously with adaptive jumping distances.
CAJun consists of a high-level centroidal policy and a low-level leg
controller. In particular, we use reinforcement learning (RL) to train the
centroidal policy, which specifies the gait timing, base velocity, and swing
foot position for the leg controller. The leg controller optimizes motor
commands for the swing and stance legs according to the gait timing to track
the swing foot target and base velocity commands using optimal control.
Additionally, we reformulate the stance leg optimizer in the leg controller to
speed up policy training by an order of magnitude. Our system combines the
versatility of learning with the robustness of optimal control. By combining RL
with optimal control methods, our system achieves the versatility of learning
while enjoys the robustness from control methods, making it easily transferable
to real robots. We show that after 20 minutes of training on a single GPU,
CAJun can achieve continuous, long jumps with adaptive distances on a Go1 robot
with small sim-to-real gaps. Moreover, the robot can jump across gaps with a
maximum width of 70cm, which is over 40% wider than existing methods.