FastTD3: Eenvoudig, Snel en Krachtig Reinforcement Learning voor Humanoïde Besturing
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control
May 28, 2025
Auteurs: Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel
cs.AI
Samenvatting
Reinforcement learning (RL) heeft aanzienlijke vooruitgang geboekt in de robotica, maar de complexiteit en lange trainingstijden blijven belangrijke knelpunten. In dit rapport introduceren we FastTD3, een eenvoudig, snel en krachtig RL-algoritme dat de trainingstijd voor humanoïde robots aanzienlijk verkort in populaire omgevingen zoals HumanoidBench, IsaacLab en MuJoCo Playground. Onze aanpak is opmerkelijk eenvoudig: we trainen een off-policy TD3-agent met verschillende aanpassingen — parallelle simulatie, updates met grote batches, een distributionele criticus en zorgvuldig afgestelde hyperparameters. FastTD3 lost een reeks taken van HumanoidBench op in minder dan 3 uur op een enkele A100 GPU, terwijl het stabiel blijft tijdens de training. We bieden ook een lichtgewicht en gebruiksvriendelijke implementatie van FastTD3 aan om RL-onderzoek in de robotica te versnellen.
English
Reinforcement learning (RL) has driven significant progress in robotics, but
its complexity and long training times remain major bottlenecks. In this
report, we introduce FastTD3, a simple, fast, and capable RL algorithm that
significantly speeds up training for humanoid robots in popular suites such as
HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably
simple: we train an off-policy TD3 agent with several modifications -- parallel
simulation, large-batch updates, a distributional critic, and carefully tuned
hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours
on a single A100 GPU, while remaining stable during training. We also provide a
lightweight and easy-to-use implementation of FastTD3 to accelerate RL research
in robotics.