AReaL: Een grootschalig asynchroon reinforcement learning-systeem voor taalredenering

Samenvatting

Reinforcement learning (RL) is uitgegroeid tot een populaire benadering voor het trainen van grote taalmodelen (LLMs), met name voor redeneertaken. Effectieve RL voor LLMs vereist massale parallelisatie en stelt een dringende behoefte aan efficiënte trainingssystemen. De meeste bestaande grootschalige RL-systemen voor LLMs zijn synchroon door het afwisselen van generatie en training in een batch-setting, waarbij de rollouts in elke trainingsbatch worden gegenereerd door hetzelfde (of meest recente) model. Dit stabiliseert RL-training, maar lijdt onder ernstige systeeminefficiëntie. Generatie moet wachten tot de langste uitvoer in de batch is voltooid voordat het model wordt bijgewerkt, wat resulteert in onderbenutting van GPU's. Wij presenteren AReaL, een volledig asynchroon RL-systeem dat generatie volledig ontkoppelt van training. Rollout-workers in AReaL genereren continu nieuwe uitvoer zonder te wachten, terwijl trainingsworkers het model bijwerken zodra een batch gegevens is verzameld. AReaL bevat ook een reeks systeemoptimalisaties, wat leidt tot aanzienlijk hogere GPU-benutting. Om RL-training te stabiliseren, balanceert AReaL de werklast van rollout- en trainingsworkers om de veroudering van gegevens te beheersen en neemt het een verouderingsverbeterde PPO-variant over om verouderde trainingsmonsters beter te verwerken. Uitgebreide experimenten op benchmarks voor wiskundig en coderingsredeneren tonen aan dat AReaL een trainingsversnelling tot 2,57 keer bereikt in vergelijking met de beste synchrone systemen met hetzelfde aantal GPU's en gelijke of zelfs verbeterde eindprestaties. De code van AReaL is beschikbaar op https://github.com/inclusionAI/AReaL/.

English

Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.57times training speedup compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.

AReaL: Een grootschalig asynchroon reinforcement learning-systeem voor taalredenering

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Samenvatting

Support