AReaL: Een grootschalig asynchroon reinforcement learning-systeem voor taalredenering
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
May 30, 2025
Auteurs: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
cs.AI
Samenvatting
Reinforcement learning (RL) is uitgegroeid tot een populaire benadering voor het trainen van grote taalmodelen (LLMs), met name voor redeneertaken. Effectieve RL voor LLMs vereist massale parallelisatie en stelt een dringende behoefte aan efficiënte trainingssystemen. De meeste bestaande grootschalige RL-systemen voor LLMs zijn synchroon door het afwisselen van generatie en training in een batch-setting, waarbij de rollouts in elke trainingsbatch worden gegenereerd door hetzelfde (of meest recente) model. Dit stabiliseert RL-training, maar lijdt onder ernstige systeeminefficiëntie. Generatie moet wachten tot de langste uitvoer in de batch is voltooid voordat het model wordt bijgewerkt, wat resulteert in onderbenutting van GPU's. Wij presenteren AReaL, een volledig asynchroon RL-systeem dat generatie volledig ontkoppelt van training. Rollout-workers in AReaL genereren continu nieuwe uitvoer zonder te wachten, terwijl trainingsworkers het model bijwerken zodra een batch gegevens is verzameld. AReaL bevat ook een reeks systeemoptimalisaties, wat leidt tot aanzienlijk hogere GPU-benutting. Om RL-training te stabiliseren, balanceert AReaL de werklast van rollout- en trainingsworkers om de veroudering van gegevens te beheersen en neemt het een verouderingsverbeterde PPO-variant over om verouderde trainingsmonsters beter te verwerken. Uitgebreide experimenten op benchmarks voor wiskundig en coderingsredeneren tonen aan dat AReaL een trainingsversnelling tot 2,57 keer bereikt in vergelijking met de beste synchrone systemen met hetzelfde aantal GPU's en gelijke of zelfs verbeterde eindprestaties. De code van AReaL is beschikbaar op https://github.com/inclusionAI/AReaL/.
English
Reinforcement learning (RL) has become a trending paradigm for training large
language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs
requires massive parallelization and poses an urgent need for efficient
training systems. Most existing large-scale RL systems for LLMs are synchronous
by alternating generation and training in a batch setting, where the rollouts
in each training batch are generated by the same (or latest) model. This
stabilizes RL training but suffers from severe system-level inefficiency.
Generation must wait until the longest output in the batch is completed before
model update, resulting in GPU underutilization. We present AReaL, a
fully asynchronous RL system that completely decouples generation from
training. Rollout workers in AReaL continuously generate new outputs without
waiting, while training workers update the model whenever a batch of data is
collected. AReaL also incorporates a collection of system-level optimizations,
leading to substantially higher GPU utilization. To stabilize RL training,
AReaL balances the workload of rollout and training workers to control data
staleness, and adopts a staleness-enhanced PPO variant to better handle
outdated training samples. Extensive experiments on math and code reasoning
benchmarks show that AReaL achieves up to 2.57times training
speedup compared to the best synchronous systems with the same number of GPUs
and matched or even improved final performance. The code of AReaL is available
at https://github.com/inclusionAI/AReaL/.