FastTD3: Einfaches, schnelles und leistungsfähiges Reinforcement Learning für die Steuerung von Humanoiden
FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control
May 28, 2025
Autoren: Younggyo Seo, Carmelo Sferrazza, Haoran Geng, Michal Nauman, Zhao-Heng Yin, Pieter Abbeel
cs.AI
Zusammenfassung
Verstärkungslernen (Reinforcement Learning, RL) hat erhebliche Fortschritte in der Robotik vorangetrieben, doch seine Komplexität und langen Trainingszeiten bleiben wesentliche Engpässe. In diesem Bericht stellen wir FastTD3 vor, einen einfachen, schnellen und leistungsfähigen RL-Algorithmus, der das Training für humanoide Roboter in gängigen Umgebungen wie HumanoidBench, IsaacLab und MuJoCo Playground erheblich beschleunigt. Unser Ansatz ist bemerkenswert einfach: Wir trainieren einen Off-Policy-TD3-Agenten mit mehreren Modifikationen – parallele Simulation, große Batch-Updates, ein distributioneller Kritiker und sorgfältig abgestimmte Hyperparameter. FastTD3 löst eine Reihe von HumanoidBench-Aufgaben in weniger als 3 Stunden auf einer einzelnen A100-GPU, während es während des Trainings stabil bleibt. Zudem bieten wir eine leichtgewichtige und benutzerfreundliche Implementierung von FastTD3 an, um die RL-Forschung in der Robotik zu beschleunigen.
English
Reinforcement learning (RL) has driven significant progress in robotics, but
its complexity and long training times remain major bottlenecks. In this
report, we introduce FastTD3, a simple, fast, and capable RL algorithm that
significantly speeds up training for humanoid robots in popular suites such as
HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably
simple: we train an off-policy TD3 agent with several modifications -- parallel
simulation, large-batch updates, a distributional critic, and carefully tuned
hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours
on a single A100 GPU, while remaining stable during training. We also provide a
lightweight and easy-to-use implementation of FastTD3 to accelerate RL research
in robotics.Summary
AI-Generated Summary