CAJun: Salto Contínuo Adaptativo usando um Controlador Centroidal Aprendido
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller
June 16, 2023
Autores: Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots
cs.AI
Resumo
Apresentamos o CAJun, uma nova estrutura hierárquica de aprendizado e controle que permite que robôs com pernas realizem saltos contínuos com distâncias adaptáveis. O CAJun consiste em uma política de alto nível centrada no centroide e um controlador de baixo nível para as pernas. Em particular, utilizamos aprendizado por reforço (RL) para treinar a política centrada no centroide, que especifica o tempo da marcha, a velocidade da base e a posição do pé em balanço para o controlador das pernas. O controlador das pernas otimiza os comandos dos motores para as pernas em balanço e de apoio de acordo com o tempo da marcha, rastreando o alvo do pé em balanço e os comandos de velocidade da base usando controle ótimo. Além disso, reformulamos o otimizador da perna de apoio no controlador das pernas para acelerar o treinamento da política em uma ordem de magnitude. Nosso sistema combina a versatilidade do aprendizado com a robustez do controle ótimo. Ao combinar RL com métodos de controle ótimo, nosso sistema alcança a versatilidade do aprendizado enquanto desfruta da robustez dos métodos de controle, tornando-o facilmente transferível para robôs reais. Demonstramos que, após 20 minutos de treinamento em uma única GPU, o CAJun pode realizar saltos contínuos e longos com distâncias adaptáveis em um robô Go1, com pequenas lacunas de simulação para realidade. Além disso, o robô pode saltar sobre vãos com uma largura máxima de 70 cm, o que é mais de 40% maior do que os métodos existentes.
English
We present CAJun, a novel hierarchical learning and control framework that
enables legged robots to jump continuously with adaptive jumping distances.
CAJun consists of a high-level centroidal policy and a low-level leg
controller. In particular, we use reinforcement learning (RL) to train the
centroidal policy, which specifies the gait timing, base velocity, and swing
foot position for the leg controller. The leg controller optimizes motor
commands for the swing and stance legs according to the gait timing to track
the swing foot target and base velocity commands using optimal control.
Additionally, we reformulate the stance leg optimizer in the leg controller to
speed up policy training by an order of magnitude. Our system combines the
versatility of learning with the robustness of optimal control. By combining RL
with optimal control methods, our system achieves the versatility of learning
while enjoys the robustness from control methods, making it easily transferable
to real robots. We show that after 20 minutes of training on a single GPU,
CAJun can achieve continuous, long jumps with adaptive distances on a Go1 robot
with small sim-to-real gaps. Moreover, the robot can jump across gaps with a
maximum width of 70cm, which is over 40% wider than existing methods.