FastTD3: Простое, быстрое и эффективное обучение с подкреплением для управления гуманоидными системами

Аннотация

Обучение с подкреплением (RL) способствовало значительному прогрессу в робототехнике, однако его сложность и длительное время обучения остаются основными препятствиями. В данном отчете мы представляем FastTD3 — простой, быстрый и эффективный алгоритм RL, который значительно ускоряет обучение гуманоидных роботов в популярных средах, таких как HumanoidBench, IsaacLab и MuJoCo Playground. Наш подход удивительно прост: мы обучаем off-policy агента TD3 с несколькими модификациями — параллельное моделирование, крупнопакетные обновления, распределенный критик и тщательно настроенные гиперпараметры. FastTD3 решает ряд задач из HumanoidBench менее чем за 3 часа на одной видеокарте A100, сохраняя стабильность в процессе обучения. Мы также предоставляем легковесную и удобную в использовании реализацию FastTD3 для ускорения исследований в области RL в робототехнике.

English

Reinforcement learning (RL) has driven significant progress in robotics, but its complexity and long training times remain major bottlenecks. In this report, we introduce FastTD3, a simple, fast, and capable RL algorithm that significantly speeds up training for humanoid robots in popular suites such as HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably simple: we train an off-policy TD3 agent with several modifications -- parallel simulation, large-batch updates, a distributional critic, and carefully tuned hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours on a single A100 GPU, while remaining stable during training. We also provide a lightweight and easy-to-use implementation of FastTD3 to accelerate RL research in robotics.