AReaL: Ein groß angelegtes asynchrones Reinforcement-Learning-System für Sprachlogik
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
May 30, 2025
Autoren: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
cs.AI
Zusammenfassung
Reinforcement Learning (RL) hat sich zu einem vielversprechenden Paradigma für das Training großer Sprachmodelle (LLMs) entwickelt, insbesondere für Aufgaben, die logisches Denken erfordern. Effektives RL für LLMs erfordert eine massive Parallelisierung und stellt dringenden Bedarf an effizienten Trainingssystemen dar. Die meisten bestehenden groß angelegten RL-Systeme für LLMs sind synchron und wechseln zwischen Generierung und Training in einem Batch-Setting, wobei die Rollouts in jedem Trainingsbatch vom gleichen (oder neuesten) Modell generiert werden. Dies stabilisiert das RL-Training, führt jedoch zu erheblichen systembedingten Ineffizienzen. Die Generierung muss warten, bis die längste Ausgabe im Batch abgeschlossen ist, bevor das Modell aktualisiert wird, was zu einer Unterauslastung der GPUs führt. Wir stellen AReaL vor, ein vollständig asynchrones RL-System, das die Generierung vollständig vom Training entkoppelt. Rollout-Worker in AReaL generieren kontinuierlich neue Ausgaben ohne zu warten, während Trainings-Worker das Modell aktualisieren, sobald ein Batch von Daten gesammelt wurde. AReaL integriert zudem eine Reihe von systembedingten Optimierungen, die zu einer deutlich höheren GPU-Auslastung führen. Um das RL-Training zu stabilisieren, gleicht AReaL die Arbeitslast von Rollout- und Trainings-Workern aus, um die Datenveraltung zu kontrollieren, und verwendet eine veraltungsoptimierte PPO-Variante, um veraltete Trainingsdaten besser zu verarbeiten. Umfangreiche Experimente auf mathematischen und Code-basierten Reasoning-Benchmarks zeigen, dass AReaL im Vergleich zu den besten synchronen Systemen mit der gleichen Anzahl von GPUs eine bis zu 2,57-fache Trainingsbeschleunigung erreicht, bei gleicher oder sogar verbesserter Endleistung. Der Code von AReaL ist verfügbar unter https://github.com/inclusionAI/AReaL/.
English
Reinforcement learning (RL) has become a trending paradigm for training large
language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs
requires massive parallelization and poses an urgent need for efficient
training systems. Most existing large-scale RL systems for LLMs are synchronous
by alternating generation and training in a batch setting, where the rollouts
in each training batch are generated by the same (or latest) model. This
stabilizes RL training but suffers from severe system-level inefficiency.
Generation must wait until the longest output in the batch is completed before
model update, resulting in GPU underutilization. We present AReaL, a
fully asynchronous RL system that completely decouples generation from
training. Rollout workers in AReaL continuously generate new outputs without
waiting, while training workers update the model whenever a batch of data is
collected. AReaL also incorporates a collection of system-level optimizations,
leading to substantially higher GPU utilization. To stabilize RL training,
AReaL balances the workload of rollout and training workers to control data
staleness, and adopts a staleness-enhanced PPO variant to better handle
outdated training samples. Extensive experiments on math and code reasoning
benchmarks show that AReaL achieves up to 2.57times training
speedup compared to the best synchronous systems with the same number of GPUs
and matched or even improved final performance. The code of AReaL is available
at https://github.com/inclusionAI/AReaL/.