AReaL: Un Sistema su Larga Scala per l'Apprendimento per Rinforzo Asincrono nel Ragionamento Linguistico

Abstract

L'apprendimento per rinforzo (Reinforcement Learning, RL) è diventato un paradigma di tendenza per l'addestramento di grandi modelli linguistici (Large Language Models, LLMs), in particolare per compiti di ragionamento. Un RL efficace per gli LLMs richiede una massiccia parallelizzazione e pone un'urgente necessità di sistemi di addestramento efficienti. La maggior parte dei sistemi RL su larga scala esistenti per gli LLMs sono sincroni, alternando generazione e addestramento in un contesto batch, dove i rollouts in ogni batch di addestramento sono generati dallo stesso (o dall'ultimo) modello. Questo stabilizza l'addestramento RL ma soffre di una grave inefficienza a livello di sistema. La generazione deve attendere che l'output più lungo nel batch sia completato prima dell'aggiornamento del modello, risultando in un sottoutilizzo delle GPU. Presentiamo AReaL, un sistema RL completamente asincrono che disaccoppia completamente la generazione dall'addestramento. I lavoratori di rollout in AReaL generano continuamente nuovi output senza attendere, mentre i lavoratori di addestramento aggiornano il modello ogni volta che viene raccolto un batch di dati. AReaL incorpora anche una serie di ottimizzazioni a livello di sistema, portando a un utilizzo delle GPU sostanzialmente più elevato. Per stabilizzare l'addestramento RL, AReaL bilancia il carico di lavoro dei lavoratori di rollout e addestramento per controllare l'obsolescenza dei dati e adotta una variante di PPO potenziata per l'obsolescenza per gestire meglio i campioni di addestramento obsoleti. Esperimenti estesi su benchmark di ragionamento matematico e di codice mostrano che AReaL raggiunge un'accelerazione dell'addestramento fino a 2,57 volte rispetto ai migliori sistemi sincroni con lo stesso numero di GPU e prestazioni finali pari o addirittura migliorate. Il codice di AReaL è disponibile all'indirizzo https://github.com/inclusionAI/AReaL/.

English

Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.57times training speedup compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.

AReaL: Un Sistema su Larga Scala per l'Apprendimento per Rinforzo Asincrono nel Ragionamento Linguistico

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Abstract

Support