CAJun: Salto Adaptativo Continuo utilizando un Controlador Centroidal Aprendido
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller
June 16, 2023
Autores: Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots
cs.AI
Resumen
Presentamos CAJun, un novedoso marco jerárquico de aprendizaje y control que permite a los robots con patas saltar de manera continua con distancias de salto adaptativas. CAJun consta de una política de alto nivel centrada en el centroide y un controlador de bajo nivel para las patas. En particular, utilizamos aprendizaje por refuerzo (RL) para entrenar la política centrada en el centroide, la cual especifica el tiempo de la zancada, la velocidad de la base y la posición del pie en oscilación para el controlador de patas. El controlador de patas optimiza los comandos de los motores para las patas en oscilación y en apoyo, según el tiempo de la zancada, para seguir el objetivo del pie en oscilación y los comandos de velocidad de la base utilizando control óptimo. Además, reformulamos el optimizador de la pata en apoyo dentro del controlador de patas para acelerar el entrenamiento de la política en un orden de magnitud. Nuestro sistema combina la versatilidad del aprendizaje con la robustez del control óptimo. Al combinar RL con métodos de control óptimo, nuestro sistema logra la versatilidad del aprendizaje mientras aprovecha la robustez de los métodos de control, lo que facilita su transferencia a robots reales. Demostramos que, después de 20 minutos de entrenamiento en una sola GPU, CAJun puede lograr saltos continuos y largos con distancias adaptativas en un robot Go1, con pequeñas brechas de simulación a realidad. Además, el robot puede saltar sobre huecos con un ancho máximo de 70 cm, lo que supera en más del 40% a los métodos existentes.
English
We present CAJun, a novel hierarchical learning and control framework that
enables legged robots to jump continuously with adaptive jumping distances.
CAJun consists of a high-level centroidal policy and a low-level leg
controller. In particular, we use reinforcement learning (RL) to train the
centroidal policy, which specifies the gait timing, base velocity, and swing
foot position for the leg controller. The leg controller optimizes motor
commands for the swing and stance legs according to the gait timing to track
the swing foot target and base velocity commands using optimal control.
Additionally, we reformulate the stance leg optimizer in the leg controller to
speed up policy training by an order of magnitude. Our system combines the
versatility of learning with the robustness of optimal control. By combining RL
with optimal control methods, our system achieves the versatility of learning
while enjoys the robustness from control methods, making it easily transferable
to real robots. We show that after 20 minutes of training on a single GPU,
CAJun can achieve continuous, long jumps with adaptive distances on a Go1 robot
with small sim-to-real gaps. Moreover, the robot can jump across gaps with a
maximum width of 70cm, which is over 40% wider than existing methods.