AReaL: Масштабируемая асинхронная система обучения с подкреплением для языковых рассуждений

Аннотация

Обучение с подкреплением (RL) стало популярной парадигмой для обучения крупных языковых моделей (LLM), особенно для задач, связанных с рассуждениями. Эффективное RL для LLM требует масштабной параллелизации и создает острую необходимость в эффективных системах обучения. Большинство существующих крупномасштабных RL-систем для LLM являются синхронными, чередуя генерацию и обучение в пакетном режиме, где траектории в каждом пакете обучения генерируются одной и той же (или последней) моделью. Это стабилизирует RL-обучение, но приводит к значительной неэффективности на системном уровне. Генерация должна ждать завершения самого длинного вывода в пакете перед обновлением модели, что приводит к неполной загрузке GPU. Мы представляем AReaL, полностью асинхронную RL-систему, которая полностью разделяет генерацию и обучение. Рабочие процессы генерации в AReaL непрерывно создают новые выводы без ожидания, в то время как рабочие процессы обучения обновляют модель, как только собран пакет данных. AReaL также включает набор оптимизаций на системном уровне, что значительно повышает использование GPU. Для стабилизации RL-обучения AReaL балансирует нагрузку между рабочими процессами генерации и обучения, чтобы контролировать устаревание данных, и использует модифицированный вариант PPO, учитывающий устаревание, для более эффективной обработки устаревших обучающих выборок. Эксперименты на тестах по математическим и программным рассуждениям показывают, что AReaL достигает ускорения обучения до 2.57 раз по сравнению с лучшими синхронными системами при том же количестве GPU и сопоставимой или даже улучшенной итоговой производительности. Код AReaL доступен по адресу https://github.com/inclusionAI/AReaL/.

English

Reinforcement learning (RL) has become a trending paradigm for training large language models (LLMs), particularly for reasoning tasks. Effective RL for LLMs requires massive parallelization and poses an urgent need for efficient training systems. Most existing large-scale RL systems for LLMs are synchronous by alternating generation and training in a batch setting, where the rollouts in each training batch are generated by the same (or latest) model. This stabilizes RL training but suffers from severe system-level inefficiency. Generation must wait until the longest output in the batch is completed before model update, resulting in GPU underutilization. We present AReaL, a fully asynchronous RL system that completely decouples generation from training. Rollout workers in AReaL continuously generate new outputs without waiting, while training workers update the model whenever a batch of data is collected. AReaL also incorporates a collection of system-level optimizations, leading to substantially higher GPU utilization. To stabilize RL training, AReaL balances the workload of rollout and training workers to control data staleness, and adopts a staleness-enhanced PPO variant to better handle outdated training samples. Extensive experiments on math and code reasoning benchmarks show that AReaL achieves up to 2.57times training speedup compared to the best synchronous systems with the same number of GPUs and matched or even improved final performance. The code of AReaL is available at https://github.com/inclusionAI/AReaL/.

AReaL: Масштабируемая асинхронная система обучения с подкреплением для языковых рассуждений

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Аннотация

Support