FastTD3 : Apprentissage par renforcement simple, rapide et performant pour le contrôle de robots humanoïdes
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control
May 28, 2025
Auteurs: Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel
cs.AI
Résumé
L'apprentissage par renforcement (RL) a permis des avancées significatives en robotique, mais sa complexité et ses temps d'entraînement longs restent des obstacles majeurs. Dans ce rapport, nous présentons FastTD3, un algorithme de RL simple, rapide et performant qui accélère considérablement l'entraînement pour les robots humanoïdes dans des environnements populaires tels que HumanoidBench, IsaacLab et MuJoCo Playground. Notre approche est remarquablement simple : nous entraînons un agent TD3 hors politique avec plusieurs modifications — simulation parallèle, mises à jour par lots de grande taille, un critique distributionnel et des hyperparamètres soigneusement ajustés. FastTD3 résout une série de tâches de HumanoidBench en moins de 3 heures sur une seule GPU A100, tout en restant stable pendant l'entraînement. Nous fournissons également une implémentation légère et facile à utiliser de FastTD3 pour accélérer la recherche en RL en robotique.
English
Reinforcement learning (RL) has driven significant progress in robotics, but
its complexity and long training times remain major bottlenecks. In this
report, we introduce FastTD3, a simple, fast, and capable RL algorithm that
significantly speeds up training for humanoid robots in popular suites such as
HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably
simple: we train an off-policy TD3 agent with several modifications -- parallel
simulation, large-batch updates, a distributional critic, and carefully tuned
hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours
on a single A100 GPU, while remaining stable during training. We also provide a
lightweight and easy-to-use implementation of FastTD3 to accelerate RL research
in robotics.Summary
AI-Generated Summary