CAJun: Непрерывная адаптивная прыжковая система с использованием обученного центроидального контроллера
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller
June 16, 2023
Авторы: Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots
cs.AI
Аннотация
Представляем CAJun — новую иерархическую систему обучения и управления, которая позволяет шагающим роботам выполнять непрерывные прыжки с адаптивными дистанциями. CAJun состоит из высокоуровневой центроидальной политики и низкоуровневого контроллера ног. В частности, мы используем обучение с подкреплением (RL) для тренировки центроидальной политики, которая определяет временные параметры походки, скорость основания и положение маховой ноги для контроллера ног. Контроллер ног оптимизирует команды для двигателей маховой и опорной ног в соответствии с временными параметрами походки, чтобы отслеживать целевое положение маховой ноги и команды скорости основания с использованием оптимального управления. Кроме того, мы переформулировали оптимизатор опорной ноги в контроллере ног, чтобы ускорить обучение политики на порядок. Наша система сочетает универсальность обучения с надежностью оптимального управления. Благодаря комбинации RL и методов оптимального управления, система достигает универсальности обучения, сохраняя при этом надежность методов управления, что упрощает её перенос на реальных роботов. Мы показываем, что после 20 минут обучения на одном GPU CAJun способен выполнять непрерывные длинные прыжки с адаптивными дистанциями на роботе Go1 с минимальными различиями между симуляцией и реальностью. Более того, робот может перепрыгивать препятствия шириной до 70 см, что на 40% больше, чем у существующих методов.
English
We present CAJun, a novel hierarchical learning and control framework that
enables legged robots to jump continuously with adaptive jumping distances.
CAJun consists of a high-level centroidal policy and a low-level leg
controller. In particular, we use reinforcement learning (RL) to train the
centroidal policy, which specifies the gait timing, base velocity, and swing
foot position for the leg controller. The leg controller optimizes motor
commands for the swing and stance legs according to the gait timing to track
the swing foot target and base velocity commands using optimal control.
Additionally, we reformulate the stance leg optimizer in the leg controller to
speed up policy training by an order of magnitude. Our system combines the
versatility of learning with the robustness of optimal control. By combining RL
with optimal control methods, our system achieves the versatility of learning
while enjoys the robustness from control methods, making it easily transferable
to real robots. We show that after 20 minutes of training on a single GPU,
CAJun can achieve continuous, long jumps with adaptive distances on a Go1 robot
with small sim-to-real gaps. Moreover, the robot can jump across gaps with a
maximum width of 70cm, which is over 40% wider than existing methods.