A Arte de Dimensionar o Cálculo de Aprendizado por Reforço para LLMs
The Art of Scaling Reinforcement Learning Compute for LLMs
October 15, 2025
Autores: Devvrit Khatri, Lovish Madaan, Rishabh Tiwari, Rachit Bansal, Sai Surya Duvvuri, Manzil Zaheer, Inderjit S. Dhillon, David Brandfonbrener, Rishabh Agarwal
cs.AI
Resumo
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se central para o treinamento de grandes modelos de linguagem (LLMs, do inglês Large Language Models), mas o campo carece de metodologias preditivas de escalonamento comparáveis às estabelecidas para o pré-treinamento. Apesar dos orçamentos de computação estarem crescendo rapidamente, não há um entendimento fundamentado de como avaliar melhorias algorítmicas para o escalonamento de computação em RL. Apresentamos o primeiro estudo sistemático em larga escala, totalizando mais de 400.000 horas de GPU, que define uma estrutura fundamentada para analisar e prever o escalonamento de RL em LLMs. Ajustamos curvas sigmoidais de desempenho-computação para o treinamento de RL e realizamos uma ablação de uma ampla gama de escolhas de design comuns para analisar seus efeitos no desempenho assintótico e na eficiência computacional. Observamos: (1) Nem todas as abordagens produzem desempenho assintótico semelhante, (2) Detalhes como agregação de perda, normalização, currículo e algoritmos off-policy modulam principalmente a eficiência computacional sem alterar significativamente o limite assintótico, e (3) Abordagens estáveis e escaláveis seguem trajetórias de escalonamento previsíveis, permitindo extrapolação a partir de execuções em menor escala. Combinando esses insights, propomos uma abordagem de melhores práticas, o ScaleRL, e demonstramos sua eficácia ao escalar e prever com sucesso o desempenho de validação em uma única execução de RL escalada para 100.000 horas de GPU. Nosso trabalho fornece tanto uma estrutura científica para analisar o escalonamento em RL quanto uma abordagem prática que aproxima o treinamento de RL da previsibilidade há muito alcançada no pré-treinamento.
English
Reinforcement learning (RL) has become central to training large language
models (LLMs), yet the field lacks predictive scaling methodologies comparable
to those established for pre-training. Despite rapidly rising compute budgets,
there is no principled understanding of how to evaluate algorithmic
improvements for scaling RL compute. We present the first large-scale
systematic study, amounting to more than 400,000 GPU-hours, that defines a
principled framework for analyzing and predicting RL scaling in LLMs. We fit
sigmoidal compute-performance curves for RL training and ablate a wide range of
common design choices to analyze their effects on asymptotic performance and
compute efficiency. We observe: (1) Not all recipes yield similar asymptotic
performance, (2) Details such as loss aggregation, normalization, curriculum,
and off-policy algorithm primarily modulate compute efficiency without
materially shifting the asymptote, and (3) Stable, scalable recipes follow
predictable scaling trajectories, enabling extrapolation from smaller-scale
runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and
demonstrate its effectiveness by successfully scaling and predicting validation
performance on a single RL run scaled up to 100,000 GPU-hours. Our work
provides both a scientific framework for analyzing scaling in RL and a
practical recipe that brings RL training closer to the predictability long
achieved in pre-training.