AReaL: Um Sistema de Aprendizado por Reforço Assíncrono em Larga Escala para Raciocínio em Linguagem

Resumo

O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se um paradigma em ascensão para o treinamento de grandes modelos de linguagem (LLMs, do inglês Large Language Models), especialmente para tarefas de raciocínio. Um RL eficaz para LLMs exige uma paralelização massiva e cria uma necessidade urgente de sistemas de treinamento eficientes. A maioria dos sistemas de RL em larga escala existentes para LLMs são síncronos, alternando geração e treinamento em um ambiente de lote, onde as execuções (rollouts) em cada lote de treinamento são geradas pelo mesmo (ou mais recente) modelo. Isso estabiliza o treinamento de RL, mas sofre com uma grave ineficiência no nível do sistema. A geração deve aguardar até que a saída mais longa no lote seja concluída antes da atualização do modelo, resultando em subutilização da GPU. Apresentamos o AReaL, um sistema de RL totalmente assíncrono que desacopla completamente a geração do treinamento. Os trabalhadores de execução (rollout workers) no AReaL geram continuamente novas saídas sem esperar, enquanto os trabalhadores de treinamento (training workers) atualizam o modelo sempre que um lote de dados é coletado. O AReaL também incorpora uma série de otimizações no nível do sistema, levando a uma utilização significativamente maior da GPU. Para estabilizar o treinamento de RL, o AReaL equilibra a carga de trabalho dos trabalhadores de execução e treinamento para controlar a obsolescência dos dados e adota uma variante do PPO (Proximal Policy Optimization) aprimorada para obsolescência, a fim de lidar melhor com amostras de treinamento desatualizadas. Experimentos extensivos em benchmarks de raciocínio matemático e de código mostram que o AReaL alcança uma aceleração de até 2,57 vezes no treinamento em comparação com os melhores sistemas síncronos com o mesmo número de GPUs, além de desempenho final igual ou até melhorado. O código do AReaL está disponível em https://github.com/inclusionAI/AReaL/.

English

Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.57times training speedup compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.

AReaL: Um Sistema de Aprendizado por Reforço Assíncrono em Larga Escala para Raciocínio em Linguagem

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Resumo

Support