A Arte de Dimensionar o Cálculo de Aprendizado por Reforço para LLMs

Resumo

O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se central para o treinamento de grandes modelos de linguagem (LLMs, do inglês Large Language Models), mas o campo carece de metodologias preditivas de escalonamento comparáveis às estabelecidas para o pré-treinamento. Apesar dos orçamentos de computação estarem crescendo rapidamente, não há um entendimento fundamentado de como avaliar melhorias algorítmicas para o escalonamento de computação em RL. Apresentamos o primeiro estudo sistemático em larga escala, totalizando mais de 400.000 horas de GPU, que define uma estrutura fundamentada para analisar e prever o escalonamento de RL em LLMs. Ajustamos curvas sigmoidais de desempenho-computação para o treinamento de RL e realizamos uma ablação de uma ampla gama de escolhas de design comuns para analisar seus efeitos no desempenho assintótico e na eficiência computacional. Observamos: (1) Nem todas as abordagens produzem desempenho assintótico semelhante, (2) Detalhes como agregação de perda, normalização, currículo e algoritmos off-policy modulam principalmente a eficiência computacional sem alterar significativamente o limite assintótico, e (3) Abordagens estáveis e escaláveis seguem trajetórias de escalonamento previsíveis, permitindo extrapolação a partir de execuções em menor escala. Combinando esses insights, propomos uma abordagem de melhores práticas, o ScaleRL, e demonstramos sua eficácia ao escalar e prever com sucesso o desempenho de validação em uma única execução de RL escalada para 100.000 horas de GPU. Nosso trabalho fornece tanto uma estrutura científica para analisar o escalonamento em RL quanto uma abordagem prática que aproxima o treinamento de RL da previsibilidade há muito alcançada no pré-treinamento.

English

Reinforcement learning (RL) has become central to training large language models (LLMs), yet the field lacks predictive scaling methodologies comparable to those established for pre-training. Despite rapidly rising compute budgets, there is no principled understanding of how to evaluate algorithmic improvements for scaling RL compute. We present the first large-scale systematic study, amounting to more than 400,000 GPU-hours, that defines a principled framework for analyzing and predicting RL scaling in LLMs. We fit sigmoidal compute-performance curves for RL training and ablate a wide range of common design choices to analyze their effects on asymptotic performance and compute efficiency. We observe: (1) Not all recipes yield similar asymptotic performance, (2) Details such as loss aggregation, normalization, curriculum, and off-policy algorithm primarily modulate compute efficiency without materially shifting the asymptote, and (3) Stable, scalable recipes follow predictable scaling trajectories, enabling extrapolation from smaller-scale runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and demonstrate its effectiveness by successfully scaling and predicting validation performance on a single RL run scaled up to 100,000 GPU-hours. Our work provides both a scientific framework for analyzing scaling in RL and a practical recipe that brings RL training closer to the predictability long achieved in pre-training.

A Arte de Dimensionar o Cálculo de Aprendizado por Reforço para LLMs

The Art of Scaling Reinforcement Learning Compute for LLMs

Resumo

Support