AReaL: Масштабируемая асинхронная система обучения с подкреплением для языковых рассуждений
AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning
May 30, 2025
Авторы: Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Jiashu Wang, Tongkai Yang, Binhang Yuan, Yi Wu
cs.AI
Аннотация
Обучение с подкреплением (RL) стало популярной парадигмой для обучения крупных языковых моделей (LLM), особенно для задач, связанных с рассуждениями. Эффективное RL для LLM требует масштабной параллелизации и создает острую необходимость в эффективных системах обучения. Большинство существующих крупномасштабных RL-систем для LLM являются синхронными, чередуя генерацию и обучение в пакетном режиме, где траектории в каждом пакете обучения генерируются одной и той же (или последней) моделью. Это стабилизирует RL-обучение, но приводит к значительной неэффективности на системном уровне. Генерация должна ждать завершения самого длинного вывода в пакете перед обновлением модели, что приводит к неполной загрузке GPU. Мы представляем AReaL, полностью асинхронную RL-систему, которая полностью разделяет генерацию и обучение. Рабочие процессы генерации в AReaL непрерывно создают новые выводы без ожидания, в то время как рабочие процессы обучения обновляют модель, как только собран пакет данных. AReaL также включает набор оптимизаций на системном уровне, что значительно повышает использование GPU. Для стабилизации RL-обучения AReaL балансирует нагрузку между рабочими процессами генерации и обучения, чтобы контролировать устаревание данных, и использует модифицированный вариант PPO, учитывающий устаревание, для более эффективной обработки устаревших обучающих выборок. Эксперименты на тестах по математическим и программным рассуждениям показывают, что AReaL достигает ускорения обучения до 2.57 раз по сравнению с лучшими синхронными системами при том же количестве GPU и сопоставимой или даже улучшенной итоговой производительности. Код AReaL доступен по адресу https://github.com/inclusionAI/AReaL/.
English
Reinforcement learning (RL) has become a trending paradigm for training large
language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs
requires massive parallelization and poses an urgent need for efficient
training systems. Most existing large-scale RL systems for LLMs are synchronous
by alternating generation and training in a batch setting, where the rollouts
in each training batch are generated by the same (or latest) model. This
stabilizes RL training but suffers from severe system-level inefficiency.
Generation must wait until the longest output in the batch is completed before
model update, resulting in GPU underutilization. We present AReaL, a
fully asynchronous RL system that completely decouples generation from
training. Rollout workers in AReaL continuously generate new outputs without
waiting, while training workers update the model whenever a batch of data is
collected. AReaL also incorporates a collection of system-level optimizations,
leading to substantially higher GPU utilization. To stabilize RL training,
AReaL balances the workload of rollout and training workers to control data
staleness, and adopts a staleness-enhanced PPO variant to better handle
outdated training samples. Extensive experiments on math and code reasoning
benchmarks show that AReaL achieves up to 2.57times training
speedup compared to the best synchronous systems with the same number of GPUs
and matched or even improved final performance. The code of AReaL is available
at https://github.com/inclusionAI/AReaL/.