CAJun: Continu Adaptief Springen met een Aangeleerde Centroidale Controller
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller
June 16, 2023
Auteurs: Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots
cs.AI
Samenvatting
We presenteren CAJun, een nieuw hiërarchisch leer- en controleframework dat
potenrobots in staat stelt om continu te springen met adaptieve springafstanden.
CAJun bestaat uit een hoog-niveau centroidaal beleid en een laag-niveau
beencontroller. In het bijzonder gebruiken we reinforcement learning (RL) om het
centroidale beleid te trainen, dat de gangtiming, basis snelheid en zwaaivoetpositie
specificeert voor de beencontroller. De beencontroller optimaliseert motorcommando's
voor de zwaai- en standbenen volgens de gangtiming om de zwaaivoetdoelpositie en
basissnelheidscommando's te volgen met behulp van optimale controle. Daarnaast
herformuleren we de standbeenoptimalisator in de beencontroller om de beleidstraining
met een orde van grootte te versnellen. Ons systeem combineert de veelzijdigheid van
leren met de robuustheid van optimale controle. Door RL te combineren met methoden
voor optimale controle, bereikt ons systeem de veelzijdigheid van leren terwijl het
profiteert van de robuustheid van controlemethoden, waardoor het gemakkelijk overdraagbaar
is naar echte robots. We laten zien dat CAJun na 20 minuten training op een enkele GPU
continue, lange sprongen met adaptieve afstanden kan bereiken op een Go1-robot met kleine
sim-to-real verschillen. Bovendien kan de robot over gaten springen met een maximale
breedte van 70 cm, wat meer dan 40% breder is dan bestaande methoden.
English
We present CAJun, a novel hierarchical learning and control framework that
enables legged robots to jump continuously with adaptive jumping distances.
CAJun consists of a high-level centroidal policy and a low-level leg
controller. In particular, we use reinforcement learning (RL) to train the
centroidal policy, which specifies the gait timing, base velocity, and swing
foot position for the leg controller. The leg controller optimizes motor
commands for the swing and stance legs according to the gait timing to track
the swing foot target and base velocity commands using optimal control.
Additionally, we reformulate the stance leg optimizer in the leg controller to
speed up policy training by an order of magnitude. Our system combines the
versatility of learning with the robustness of optimal control. By combining RL
with optimal control methods, our system achieves the versatility of learning
while enjoys the robustness from control methods, making it easily transferable
to real robots. We show that after 20 minutes of training on a single GPU,
CAJun can achieve continuous, long jumps with adaptive distances on a Go1 robot
with small sim-to-real gaps. Moreover, the robot can jump across gaps with a
maximum width of 70cm, which is over 40% wider than existing methods.