Open-Reasoner-Zero: ベースモデルにおける強化学習のスケールアップに向けたオープンソースアプローチ
Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
March 31, 2025
著者: Jingcheng Hu, Yinmin Zhang, Qi Han, Daxin Jiang, Xiangyu Zhang, Heung-Yeung Shum
cs.AI
要旨
私たちは、スケーラビリティ、シンプルさ、アクセシビリティに焦点を当てた大規模な推論指向の強化学習(RL)トレーニングの最初のオープンソース実装であるOpen-Reasoner-Zeroを紹介します。広範な実験を通じて、KL正則化を一切行わず、GAE(lambda=1、gamma=1)を用いたシンプルなPPOと、直感的なルールベースの報酬というミニマリストアプローチが、DeepSeek-R1-Zeroで観察された現象と同様に、応答の長さとベンチマーク性能の両方をスケールアップするのに十分であることを実証しました。DeepSeek-R1-Zero-Qwen-32Bと同じベースモデルを使用して、私たちの実装はAIME2024、MATH500、およびGPQA Diamondベンチマークで優れた性能を発揮し、DeepSeek-R1-Zeroパイプラインと比較してわずか10分の1のトレーニングステップで顕著な効率性を示しました。オープンソースの精神に則り、私たちはソースコード、パラメータ設定、トレーニングデータ、およびさまざまなサイズのモデルウェイトを公開します。
English
We introduce Open-Reasoner-Zero, the first open source implementation of
large-scale reasoning-oriented RL training focusing on scalability, simplicity
and accessibility. Through extensive experiments, we demonstrate that a
minimalist approach, vanilla PPO with GAE (lambda=1, gamma=1) and
straightforward rule-based rewards, without any KL regularization, is
sufficient to scale up both response length and benchmark performance, similar
to the phenomenon observed in DeepSeek-R1-Zero. Using the same base model as
DeepSeek-R1-Zero-Qwen-32B, our implementation achieves superior performance on
AIME2024, MATH500, and the GPQA Diamond benchmark while demonstrating
remarkable efficiency -- requiring only a tenth of the training steps, compared
to DeepSeek-R1-Zero pipeline. In the spirit of open source, we release our
source code, parameter settings, training data, and model weights across
various sizes.Summary
AI-Generated Summary