ChatPaper.aiChatPaper

Open-Reasoner-Zero: Открытый подход к масштабированию обучения с подкреплением на базовой модели

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

March 31, 2025
Авторы: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI

Аннотация

Мы представляем Open-Reasoner-Zero — первую открытую реализацию крупномасштабного обучения с подкреплением (RL), ориентированного на рассуждения, с акцентом на масштабируемость, простоту и доступность. В ходе обширных экспериментов мы демонстрируем, что минималистичный подход, включающий базовый PPO с GAE (lambda=1, gamma=1) и простые правила для наград, без какого-либо KL-регуляризации, достаточен для масштабирования как длины ответов, так и производительности на бенчмарках, что аналогично явлению, наблюдавшемуся в DeepSeek-R1-Zero. Используя ту же базовую модель, что и в DeepSeek-R1-Zero-Qwen-32B, наша реализация достигает превосходных результатов на AIME2024, MATH500 и бенчмарке GPQA Diamond, демонстрируя при этом замечательную эффективность — требуется лишь десятая часть шагов обучения по сравнению с конвейером DeepSeek-R1-Zero. В духе открытого исходного кода мы публикуем наш исходный код, параметры настройки, данные для обучения и веса моделей различных размеров.
English
We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE (lambda=1, gamma=1) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency -- requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.
PDF623April 1, 2025