AReaL: Un sistema de aprendizaje por refuerzo asíncrono a gran escala para razonamiento lingüístico
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
May 30, 2025
Autores: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un paradigma destacado para entrenar modelos de lenguaje de gran escala (LLMs), especialmente en tareas de razonamiento. Un RL efectivo para LLMs requiere una paralelización masiva y plantea una necesidad urgente de sistemas de entrenamiento eficientes. La mayoría de los sistemas de RL a gran escala existentes para LLMs son síncronos, alternando generación y entrenamiento en un entorno por lotes, donde las trayectorias en cada lote de entrenamiento son generadas por el mismo (o el más reciente) modelo. Esto estabiliza el entrenamiento de RL, pero sufre de una grave ineficiencia a nivel del sistema. La generación debe esperar hasta que se complete la salida más larga en el lote antes de actualizar el modelo, lo que resulta en una subutilización de las GPU. Presentamos AReaL, un sistema de RL completamente asíncrono que desacopla por completo la generación del entrenamiento. Los trabajadores de generación en AReaL producen continuamente nuevas salidas sin esperar, mientras que los trabajadores de entrenamiento actualizan el modelo cada vez que se recopila un lote de datos. AReaL también incorpora una serie de optimizaciones a nivel del sistema, lo que conduce a una utilización sustancialmente mayor de las GPU. Para estabilizar el entrenamiento de RL, AReaL equilibra la carga de trabajo de los trabajadores de generación y entrenamiento para controlar la obsolescencia de los datos, y adopta una variante de PPO mejorada para manejar mejor las muestras de entrenamiento desactualizadas. Experimentos extensos en benchmarks de razonamiento matemático y de código muestran que AReaL logra una aceleración de hasta 2.57 veces en el entrenamiento en comparación con los mejores sistemas síncronos con el mismo número de GPUs y un rendimiento final igual o incluso mejorado. El código de AReaL está disponible en https://github.com/inclusionAI/AReaL/.
English
Reinforcement learning (RL) has become a trending paradigm for training large
language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs
requires massive parallelization and poses an urgent need for efficient
training systems. Most existing large-scale RL systems for LLMs are synchronous
by alternating generation and training in a batch setting, where the rollouts
in each training batch are generated by the same (or latest) model. This
stabilizes RL training but suffers from severe system-level inefficiency.
Generation must wait until the longest output in the batch is completed before
model update, resulting in GPU underutilization. We present AReaL, a
fully asynchronous RL system that completely decouples generation from
training. Rollout workers in AReaL continuously generate new outputs without
waiting, while training workers update the model whenever a batch of data is
collected. AReaL also incorporates a collection of system-level optimizations,
leading to substantially higher GPU utilization. To stabilize RL training,
AReaL balances the workload of rollout and training workers to control data
staleness, and adopts a staleness-enhanced PPO variant to better handle
outdated training samples. Extensive experiments on math and code reasoning
benchmarks show that AReaL achieves up to 2.57times training
speedup compared to the best synchronous systems with the same number of GPUs
and matched or even improved final performance. The code of AReaL is available
at https://github.com/inclusionAI/AReaL/.