AReaL: Um Sistema de Aprendizado por Reforço Assíncrono em Larga Escala para Raciocínio em Linguagem
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
May 30, 2025
Autores: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
cs.AI
Resumo
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se um paradigma em ascensão para o treinamento de grandes modelos de linguagem (LLMs, do inglês Large Language Models), especialmente para tarefas de raciocínio. Um RL eficaz para LLMs exige uma paralelização massiva e cria uma necessidade urgente de sistemas de treinamento eficientes. A maioria dos sistemas de RL em larga escala existentes para LLMs são síncronos, alternando geração e treinamento em um ambiente de lote, onde as execuções (rollouts) em cada lote de treinamento são geradas pelo mesmo (ou mais recente) modelo. Isso estabiliza o treinamento de RL, mas sofre com uma grave ineficiência no nível do sistema. A geração deve aguardar até que a saída mais longa no lote seja concluída antes da atualização do modelo, resultando em subutilização da GPU. Apresentamos o AReaL, um sistema de RL totalmente assíncrono que desacopla completamente a geração do treinamento. Os trabalhadores de execução (rollout workers) no AReaL geram continuamente novas saídas sem esperar, enquanto os trabalhadores de treinamento (training workers) atualizam o modelo sempre que um lote de dados é coletado. O AReaL também incorpora uma série de otimizações no nível do sistema, levando a uma utilização significativamente maior da GPU. Para estabilizar o treinamento de RL, o AReaL equilibra a carga de trabalho dos trabalhadores de execução e treinamento para controlar a obsolescência dos dados e adota uma variante do PPO (Proximal Policy Optimization) aprimorada para obsolescência, a fim de lidar melhor com amostras de treinamento desatualizadas. Experimentos extensivos em benchmarks de raciocínio matemático e de código mostram que o AReaL alcança uma aceleração de até 2,57 vezes no treinamento em comparação com os melhores sistemas síncronos com o mesmo número de GPUs, além de desempenho final igual ou até melhorado. O código do AReaL está disponível em https://github.com/inclusionAI/AReaL/.
English
Reinforcement learning (RL) has become a trending paradigm for training large
language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs
requires massive parallelization and poses an urgent need for efficient
training systems. Most existing large-scale RL systems for LLMs are synchronous
by alternating generation and training in a batch setting, where the rollouts
in each training batch are generated by the same (or latest) model. This
stabilizes RL training but suffers from severe system-level inefficiency.
Generation must wait until the longest output in the batch is completed before
model update, resulting in GPU underutilization. We present AReaL, a
fully asynchronous RL system that completely decouples generation from
training. Rollout workers in AReaL continuously generate new outputs without
waiting, while training workers update the model whenever a batch of data is
collected. AReaL also incorporates a collection of system-level optimizations,
leading to substantially higher GPU utilization. To stabilize RL training,
AReaL balances the workload of rollout and training workers to control data
staleness, and adopts a staleness-enhanced PPO variant to better handle
outdated training samples. Extensive experiments on math and code reasoning
benchmarks show that AReaL achieves up to 2.57times training
speedup compared to the best synchronous systems with the same number of GPUs
and matched or even improved final performance. The code of AReaL is available
at https://github.com/inclusionAI/AReaL/.