FastTD3: Aprendizado por Reforço Simples, Rápido e Eficiente para Controle de Humanoides
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control
May 28, 2025
Autores: Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel
cs.AI
Resumo
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tem impulsionado avanços significativos na robótica, mas sua complexidade e longos tempos de treinamento continuam sendo grandes obstáculos. Neste relatório, apresentamos o FastTD3, um algoritmo de RL simples, rápido e eficiente que acelera consideravelmente o treinamento para robôs humanoides em conjuntos populares como HumanoidBench, IsaacLab e MuJoCo Playground. Nossa abordagem é notavelmente simples: treinamos um agente TD3 off-policy com várias modificações — simulação paralela, atualizações em grandes lotes, um crítico distribucional e hiperparâmetros cuidadosamente ajustados. O FastTD3 resolve uma variedade de tarefas do HumanoidBench em menos de 3 horas em uma única GPU A100, mantendo-se estável durante o treinamento. Também fornecemos uma implementação leve e fácil de usar do FastTD3 para acelerar a pesquisa em RL na robótica.
English
Reinforcement learning (RL) has driven significant progress in robotics, but
its complexity and long training times remain major bottlenecks. In this
report, we introduce FastTD3, a simple, fast, and capable RL algorithm that
significantly speeds up training for humanoid robots in popular suites such as
HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably
simple: we train an off-policy TD3 agent with several modifications -- parallel
simulation, large-batch updates, a distributional critic, and carefully tuned
hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours
on a single A100 GPU, while remaining stable during training. We also provide a
lightweight and easy-to-use implementation of FastTD3 to accelerate RL research
in robotics.