AReaL: Un sistema de aprendizaje por refuerzo asíncrono a gran escala para razonamiento lingüístico

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un paradigma destacado para entrenar modelos de lenguaje de gran escala (LLMs), especialmente en tareas de razonamiento. Un RL efectivo para LLMs requiere una paralelización masiva y plantea una necesidad urgente de sistemas de entrenamiento eficientes. La mayoría de los sistemas de RL a gran escala existentes para LLMs son síncronos, alternando generación y entrenamiento en un entorno por lotes, donde las trayectorias en cada lote de entrenamiento son generadas por el mismo (o el más reciente) modelo. Esto estabiliza el entrenamiento de RL, pero sufre de una grave ineficiencia a nivel del sistema. La generación debe esperar hasta que se complete la salida más larga en el lote antes de actualizar el modelo, lo que resulta en una subutilización de las GPU. Presentamos AReaL, un sistema de RL completamente asíncrono que desacopla por completo la generación del entrenamiento. Los trabajadores de generación en AReaL producen continuamente nuevas salidas sin esperar, mientras que los trabajadores de entrenamiento actualizan el modelo cada vez que se recopila un lote de datos. AReaL también incorpora una serie de optimizaciones a nivel del sistema, lo que conduce a una utilización sustancialmente mayor de las GPU. Para estabilizar el entrenamiento de RL, AReaL equilibra la carga de trabajo de los trabajadores de generación y entrenamiento para controlar la obsolescencia de los datos, y adopta una variante de PPO mejorada para manejar mejor las muestras de entrenamiento desactualizadas. Experimentos extensos en benchmarks de razonamiento matemático y de código muestran que AReaL logra una aceleración de hasta 2.57 veces en el entrenamiento en comparación con los mejores sistemas síncronos con el mismo número de GPUs y un rendimiento final igual o incluso mejorado. El código de AReaL está disponible en https://github.com/inclusionAI/AReaL/.

English

Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.57times training speedup compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.

AReaL: Un sistema de aprendizaje por refuerzo asíncrono a gran escala para razonamiento lingüístico

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Resumen

Support