FastTD3: Простое, быстрое и эффективное обучение с подкреплением для управления гуманоидными системами
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control
May 28, 2025
Авторы: Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel
cs.AI
Аннотация
Обучение с подкреплением (RL) способствовало значительному прогрессу в робототехнике, однако его сложность и длительное время обучения остаются основными препятствиями. В данном отчете мы представляем FastTD3 — простой, быстрый и эффективный алгоритм RL, который значительно ускоряет обучение гуманоидных роботов в популярных средах, таких как HumanoidBench, IsaacLab и MuJoCo Playground. Наш подход удивительно прост: мы обучаем off-policy агента TD3 с несколькими модификациями — параллельное моделирование, крупнопакетные обновления, распределенный критик и тщательно настроенные гиперпараметры. FastTD3 решает ряд задач из HumanoidBench менее чем за 3 часа на одной видеокарте A100, сохраняя стабильность в процессе обучения. Мы также предоставляем легковесную и удобную в использовании реализацию FastTD3 для ускорения исследований в области RL в робототехнике.
English
Reinforcement learning (RL) has driven significant progress in robotics, but
its complexity and long training times remain major bottlenecks. In this
report, we introduce FastTD3, a simple, fast, and capable RL algorithm that
significantly speeds up training for humanoid robots in popular suites such as
HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably
simple: we train an off-policy TD3 agent with several modifications -- parallel
simulation, large-batch updates, a distributional critic, and carefully tuned
hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours
on a single A100 GPU, while remaining stable during training. We also provide a
lightweight and easy-to-use implementation of FastTD3 to accelerate RL research
in robotics.Summary
AI-Generated Summary