DAPO: Масштабируемая система с открытым исходным кодом для обучения с подкреплением больших языковых моделей

Аннотация

Масштабирование вывода наделяет большие языковые модели (LLM) беспрецедентной способностью к рассуждениям, где основным методом для активации сложных рассуждений является обучение с подкреплением. Однако ключевые технические детали современных LLM, ориентированных на рассуждения, остаются скрытыми (например, в блоге OpenAI o1 и техническом отчете DeepSeek R1), что затрудняет воспроизведение их результатов обучения с подкреплением. Мы предлагаем алгоритм Decoupled Clip and Dynamic Sampling Policy Optimization (DAPO) и полностью открываем исходный код современной крупномасштабной системы обучения с подкреплением, которая достигает 50 баллов на AIME 2024, используя базовую модель Qwen2.5-32B. В отличие от предыдущих работ, где детали обучения не раскрывались, мы представляем четыре ключевые техники нашего алгоритма, которые обеспечивают успех крупномасштабного обучения LLM с подкреплением. Кроме того, мы открываем исходный код нашего обучающего кода, созданного на основе фреймворка verl, а также тщательно отобранный и обработанный набор данных. Эти компоненты нашей открытой системы повышают воспроизводимость и поддерживают будущие исследования в области крупномасштабного обучения LLM с подкреплением.

English

Inference scaling empowers LLMs with unprecedented reasoning ability, with reinforcement learning as the core technique to elicit complex reasoning. However, key technical details of state-of-the-art reasoning LLMs are concealed (such as in OpenAI o1 blog and DeepSeek R1 technical report), thus the community still struggles to reproduce their RL training results. We propose the Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) algorithm, and fully open-source a state-of-the-art large-scale RL system that achieves 50 points on AIME 2024 using Qwen2.5-32B base model. Unlike previous works that withhold training details, we introduce four key techniques of our algorithm that make large-scale LLM RL a success. In addition, we open-source our training code, which is built on the verl framework, along with a carefully curated and processed dataset. These components of our open-source system enhance reproducibility and support future research in large-scale LLM RL.