ChatPaper.aiChatPaper

Open-Reasoner-Zero: Ein Open-Source-Ansatz zur Skalierung von Reinforcement Learning auf dem Basismodell

Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model

March 31, 2025
Autoren: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI

Zusammenfassung

Wir stellen Open-Reasoner-Zero vor, die erste Open-Source-Implementierung von groß angelegtem, auf Reasoning ausgerichtetem RL-Training, das auf Skalierbarkeit, Einfachheit und Zugänglichkeit abzielt. Durch umfangreiche Experimente zeigen wir, dass ein minimalistischer Ansatz – einfaches PPO mit GAE (lambda=1, gamma=1) und direkten regelbasierten Belohnungen, ohne jegliche KL-Regularisierung – ausreicht, um sowohl die Antwortlänge als auch die Benchmark-Leistung zu steigern, ähnlich dem Phänomen, das bei DeepSeek-R1-Zero beobachtet wurde. Mit demselben Basismodell wie DeepSeek-R1-Zero-Qwen-32B erreicht unsere Implementierung überlegene Leistungen auf AIME2024, MATH500 und dem GPQA Diamond Benchmark, während sie eine bemerkenswerte Effizienz zeigt – sie benötigt nur ein Zehntel der Trainingsschritte im Vergleich zur DeepSeek-R1-Zero-Pipeline. Im Geiste von Open Source veröffentlichen wir unseren Quellcode, Parameter-Einstellungen, Trainingsdaten und Modellgewichte in verschiedenen Größen.
English
We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE (lambda=1, gamma=1) and straightforward rule-based rewards, without any KL regularization, is sufficient to scale up both response length and benchmark performance, similar to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating remarkable efficiency -- requiring only a tenth of the training steps, compared to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our source code, parameter settings, training data, and model weights across various sizes.

Summary

AI-Generated Summary

PDF633April 1, 2025