ChatPaper.aiChatPaper

AReaL : Un système d'apprentissage par renforcement asynchrone à grande échelle pour le raisonnement linguistique

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

May 30, 2025
Auteurs: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
cs.AI

Résumé

L'apprentissage par renforcement (RL) est devenu un paradigme en vogue pour l'entraînement de grands modèles de langage (LLMs), en particulier pour les tâches de raisonnement. Un RL efficace pour les LLMs nécessite une parallélisation massive et soulève un besoin urgent de systèmes d'entraînement efficaces. La plupart des systèmes RL à grande échelle existants pour les LLMs sont synchrones, alternant génération et entraînement dans un cadre par lots, où les rollouts de chaque lot d'entraînement sont générés par le même modèle (ou le plus récent). Cela stabilise l'entraînement RL mais souffre d'une inefficacité systémique sévère. La génération doit attendre que la sortie la plus longue du lot soit terminée avant la mise à jour du modèle, entraînant une sous-utilisation des GPU. Nous présentons AReaL, un système RL entièrement asynchrone qui découple complètement la génération de l'entraînement. Les workers de génération dans AReaL produisent continuellement de nouvelles sorties sans attendre, tandis que les workers d'entraînement mettent à jour le modèle dès qu'un lot de données est collecté. AReaL intègre également une série d'optimisations au niveau système, conduisant à une utilisation substantiellement plus élevée des GPU. Pour stabiliser l'entraînement RL, AReaL équilibre la charge de travail des workers de génération et d'entraînement pour contrôler l'obsolescence des données, et adopte une variante de PPO améliorée pour mieux gérer les échantillons d'entraînement obsolètes. Des expériences approfondies sur des benchmarks de raisonnement mathématique et de code montrent qu'AReaL atteint jusqu'à 2,57 fois l'accélération d'entraînement par rapport aux meilleurs systèmes synchrones avec le même nombre de GPUs, tout en obtenant des performances finales équivalentes voire améliorées. Le code d'AReaL est disponible à l'adresse https://github.com/inclusionAI/AReaL/.
English
Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.57times training speedup compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.
PDF212June 3, 2025