Open-Reasoner-Zero: Un enfoque de código abierto para escalar el aprendizaje por refuerzo en el modelo base
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
March 31, 2025
Autores: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI
Resumen
Presentamos Open-Reasoner-Zero, la primera implementación de código abierto de entrenamiento RL a gran escala orientado al razonamiento, centrada en escalabilidad, simplicidad y accesibilidad. A través de extensos experimentos, demostramos que un enfoque minimalista, utilizando PPO estándar con GAE (lambda=1, gamma=1) y recompensas basadas en reglas directas, sin ninguna regularización KL, es suficiente para escalar tanto la longitud de las respuestas como el rendimiento en benchmarks, similar al fenómeno observado en DeepSeek-R1-Zero. Utilizando el mismo modelo base que DeepSeek-R1-Zero-Qwen-32B, nuestra implementación logra un rendimiento superior en AIME2024, MATH500 y el benchmark GPQA Diamond, al mismo tiempo que demuestra una eficiencia notable: requiere solo una décima parte de los pasos de entrenamiento en comparación con el pipeline de DeepSeek-R1-Zero. En el espíritu del código abierto, publicamos nuestro código fuente, configuraciones de parámetros, datos de entrenamiento y pesos del modelo en varios tamaños.
English
We introduce Open-Reasoner-Zero, the first open source implementation of
large-scale reasoning-oriented RL training focusing on scalability, simplicity
and accessibility. Through extensive experiments, we demonstrate that a
minimalist approach, vanilla PPO with GAE (lambda=1, gamma=1) and
straightforward rule-based rewards, without any KL regularization, is
sufficient to scale up both response length and benchmark performance, similar
to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as
DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on
AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating
remarkable efficiency -- requiring only a tenth of the training steps, compared
to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our
source code, parameter settings, training data, and model weights across
various sizes.Summary
AI-Generated Summary