L'arte di scalare il calcolo per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni

Abstract

L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato centrale per l'addestramento di grandi modelli linguistici (Large Language Models, LLMs), ma il campo manca di metodologie predittive di scalabilità paragonabili a quelle stabilite per il pre-training. Nonostante i budget computazionali in rapida crescita, non esiste una comprensione sistematica di come valutare i miglioramenti algoritmici per la scalabilità del calcolo RL. Presentiamo il primo studio sistematico su larga scala, che ammonta a oltre 400.000 ore di GPU, che definisce un framework metodologico per analizzare e prevedere la scalabilità RL negli LLMs. Abbiamo adattato curve sigmoidali calcolo-prestazione per l'addestramento RL e abbiamo analizzato un'ampia gamma di scelte progettuali comuni per valutarne gli effetti sulle prestazioni asintotiche e sull'efficienza computazionale. Osserviamo: (1) Non tutte le ricette producono prestazioni asintotiche simili, (2) Dettagli come l'aggregazione della loss, la normalizzazione, il curriculum e gli algoritmi off-policy modulano principalmente l'efficienza computazionale senza modificare sostanzialmente l'asintoto, e (3) Ricette stabili e scalabili seguono traiettorie di scalabilità prevedibili, consentendo l'estrapolazione da esecuzioni su scala ridotta. Combinando queste intuizioni, proponiamo una ricetta di best practice, ScaleRL, e ne dimostriamo l'efficienza scalando con successo e prevedendo le prestazioni di validazione su una singola esecuzione RL scalata fino a 100.000 ore di GPU. Il nostro lavoro fornisce sia un framework scientifico per analizzare la scalabilità in RL sia una ricetta pratica che avvicina l'addestramento RL alla prevedibilità a lungo raggiunta nel pre-training.

English

Reinforcement learning (RL) has become central to training large language models (LLMs), yet the field lacks predictive scaling methodologies comparable to those established for pre-training. Despite rapidly rising compute budgets, there is no principled understanding of how to evaluate algorithmic improvements for scaling RL compute. We present the first large-scale systematic study, amounting to more than 400,000 GPU-hours, that defines a principled framework for analyzing and predicting RL scaling in LLMs. We fit sigmoidal compute-performance curves for RL training and ablate a wide range of common design choices to analyze their effects on asymptotic performance and compute efficiency. We observe: (1) Not all recipes yield similar asymptotic performance, (2) Details such as loss aggregation, normalization, curriculum, and off-policy algorithm primarily modulate compute efficiency without materially shifting the asymptote, and (3) Stable, scalable recipes follow predictable scaling trajectories, enabling extrapolation from smaller-scale runs. Combining these insights, we propose a best-practice recipe, ScaleRL, and demonstrate its effectiveness by successfully scaling and predicting validation performance on a single RL run scaled up to 100,000 GPU-hours. Our work provides both a scientific framework for analyzing scaling in RL and a practical recipe that brings RL training closer to the predictability long achieved in pre-training.

L'arte di scalare il calcolo per l'apprendimento per rinforzo nei modelli linguistici di grandi dimensioni

The Art of Scaling Reinforcement Learning Compute for LLMs

Abstract

Support