CAJun: Salto Adattivo Continuo utilizzando un Controllore Centrale Appreso
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller
June 16, 2023
Autori: Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots
cs.AI
Abstract
Presentiamo CAJun, un innovativo framework gerarchico di apprendimento e controllo che consente ai robot quadrupedi di eseguire salti continui con distanze adattive. CAJun è composto da una politica centroidale di alto livello e da un controllore delle zampe di basso livello. In particolare, utilizziamo il reinforcement learning (RL) per addestrare la politica centroidale, che specifica la temporizzazione dell'andatura, la velocità della base e la posizione del piede oscillante per il controllore delle zampe. Il controllore delle zampe ottimizza i comandi motori per le zampe in oscillazione e in appoggio in base alla temporizzazione dell'andatura, per inseguire l'obiettivo del piede oscillante e i comandi di velocità della base utilizzando il controllo ottimo. Inoltre, riformuliamo l'ottimizzatore della zampa in appoggio nel controllore delle zampe per accelerare l'addestramento della politica di un ordine di grandezza. Il nostro sistema combina la versatilità dell'apprendimento con la robustezza del controllo ottimo. Integrando il RL con metodi di controllo ottimo, il nostro sistema raggiunge la versatilità dell'apprendimento pur beneficiando della robustezza dei metodi di controllo, rendendolo facilmente trasferibile a robot reali. Dimostriamo che, dopo 20 minuti di addestramento su una singola GPU, CAJun può eseguire salti continui e lunghi con distanze adattive su un robot Go1, con piccoli gap tra simulazione e realtà. Inoltre, il robot può saltare oltre gap con una larghezza massima di 70 cm, oltre il 40% in più rispetto ai metodi esistenti.
English
We present CAJun, a novel hierarchical learning and control framework that
enables legged robots to jump continuously with adaptive jumping distances.
CAJun consists of a high-level centroidal policy and a low-level leg
controller. In particular, we use reinforcement learning (RL) to train the
centroidal policy, which specifies the gait timing, base velocity, and swing
foot position for the leg controller. The leg controller optimizes motor
commands for the swing and stance legs according to the gait timing to track
the swing foot target and base velocity commands using optimal control.
Additionally, we reformulate the stance leg optimizer in the leg controller to
speed up policy training by an order of magnitude. Our system combines the
versatility of learning with the robustness of optimal control. By combining RL
with optimal control methods, our system achieves the versatility of learning
while enjoys the robustness from control methods, making it easily transferable
to real robots. We show that after 20 minutes of training on a single GPU,
CAJun can achieve continuous, long jumps with adaptive distances on a Go1 robot
with small sim-to-real gaps. Moreover, the robot can jump across gaps with a
maximum width of 70cm, which is over 40% wider than existing methods.