R1ゼロライクトレーニングの理解:批判的視点
Understanding R1-Zero-Like Training: A Critical Perspective
March 26, 2025
著者: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
要旨
DeepSeek-R1-Zeroは、大規模な強化学習(RL)が教師あり微調整なしに直接LLMの推論能力を向上させることができることを示しました。本研究では、R1-Zeroのようなトレーニングを批判的に検証し、その2つの主要な構成要素であるベースモデルとRLを分析します。DeepSeek-V3-Baseを含む幅広いベースモデルを調査し、事前学習の特性がRLの性能にどのように影響するかを理解します。分析の結果、DeepSeek-V3-Baseはすでに「Ahaモーメント」を示し、Qwen2.5ベースモデルはプロンプトテンプレートなしでも強い推論能力を示すことがわかり、事前学習におけるバイアスの可能性が示唆されました。さらに、Group Relative Policy Optimization(GRPO)における最適化バイアスを特定し、トレーニング中に(特に誤った出力に対して)応答の長さを人為的に増加させることがわかりました。これに対処するため、トークン効率を向上させながら推論性能を維持するDr. GRPOというバイアスのない最適化手法を導入します。これらの知見を活用し、7BベースモデルでAIME 2024において43.3%の精度を達成するミニマリストなR1-Zeroレシピを提示し、新たな最先端を確立しました。コードはhttps://github.com/sail-sg/understand-r1-zeroで公開されています。
English
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can
directly enhance the reasoning capabilities of LLMs without supervised
fine-tuning. In this work, we critically examine R1-Zero-like training by
analyzing its two core components: base models and RL. We investigate a wide
range of base models, including DeepSeek-V3-Base, to understand how pretraining
characteristics influence RL performance. Our analysis reveals that
DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models
demonstrate strong reasoning capabilities even without prompt templates,
suggesting potential pretraining biases. Additionally, we identify an
optimization bias in Group Relative Policy Optimization (GRPO), which
artificially increases response length (especially for incorrect outputs)
during training. To address this, we introduce Dr. GRPO, an unbiased
optimization method that improves token efficiency while maintaining reasoning
performance. Leveraging these insights, we present a minimalist R1-Zero recipe
that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a
new state-of-the-art. Our code is available at
https://github.com/sail-sg/understand-r1-zero.Summary
AI-Generated Summary