AReaL: Ein groß angelegtes asynchrones Reinforcement-Learning-System für Sprachlogik

papers.abstract

Reinforcement Learning (RL) hat sich zu einem vielversprechenden Paradigma für das Training großer Sprachmodelle (LLMs) entwickelt, insbesondere für Aufgaben, die logisches Denken erfordern. Effektives RL für LLMs erfordert eine massive Parallelisierung und stellt dringenden Bedarf an effizienten Trainingssystemen dar. Die meisten bestehenden groß angelegten RL-Systeme für LLMs sind synchron und wechseln zwischen Generierung und Training in einem Batch-Setting, wobei die Rollouts in jedem Trainingsbatch vom gleichen (oder neuesten) Modell generiert werden. Dies stabilisiert das RL-Training, führt jedoch zu erheblichen systembedingten Ineffizienzen. Die Generierung muss warten, bis die längste Ausgabe im Batch abgeschlossen ist, bevor das Modell aktualisiert wird, was zu einer Unterauslastung der GPUs führt. Wir stellen AReaL vor, ein vollständig asynchrones RL-System, das die Generierung vollständig vom Training entkoppelt. Rollout-Worker in AReaL generieren kontinuierlich neue Ausgaben ohne zu warten, während Trainings-Worker das Modell aktualisieren, sobald ein Batch von Daten gesammelt wurde. AReaL integriert zudem eine Reihe von systembedingten Optimierungen, die zu einer deutlich höheren GPU-Auslastung führen. Um das RL-Training zu stabilisieren, gleicht AReaL die Arbeitslast von Rollout- und Trainings-Workern aus, um die Datenveraltung zu kontrollieren, und verwendet eine veraltungsoptimierte PPO-Variante, um veraltete Trainingsdaten besser zu verarbeiten. Umfangreiche Experimente auf mathematischen und Code-basierten Reasoning-Benchmarks zeigen, dass AReaL im Vergleich zu den besten synchronen Systemen mit der gleichen Anzahl von GPUs eine bis zu 2,57-fache Trainingsbeschleunigung erreicht, bei gleicher oder sogar verbesserter Endleistung. Der Code von AReaL ist verfügbar unter https://github.com/inclusionAI/AReaL/.

English

Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.57times training speedup compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.

AReaL: Ein groß angelegtes asynchrones Reinforcement-Learning-System für Sprachlogik

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

papers.abstract

Support