ChatPaper.aiChatPaper

Verständnis des R1-Zero-ähnlichen Trainings: Eine kritische Perspektive

Understanding R1-Zero-Like Training: A Critical Perspective

March 26, 2025
Autoren: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI

Zusammenfassung

DeepSeek-R1-Zero hat gezeigt, dass Reinforcement Learning (RL) im großen Maßstab die Fähigkeiten von LLMs zur logischen Schlussfolgerung direkt verbessern kann, ohne überwachtes Fein-Tuning. In dieser Arbeit untersuchen wir kritisch das R1-Zero-ähnliche Training, indem wir seine beiden Kernkomponenten analysieren: Basismodelle und RL. Wir untersuchen eine breite Palette von Basismodellen, einschließlich DeepSeek-V3-Base, um zu verstehen, wie die Eigenschaften des Vortrainings die RL-Leistung beeinflussen. Unsere Analyse zeigt, dass DeepSeek-V3-Base bereits einen „Aha-Moment“ aufweisen, während Qwen2.5-Basismodelle starke Fähigkeiten zur logischen Schlussfolgerung selbst ohne Prompt-Vorlagen demonstrieren, was auf potenzielle Vortrainingsverzerrungen hindeutet. Zusätzlich identifizieren wir eine Optimierungsverzerrung in der Group Relative Policy Optimization (GRPO), die die Antwortlänge (insbesondere bei falschen Ausgaben) während des Trainings künstlich erhöht. Um dies zu beheben, führen wir Dr. GRPO ein, eine unvoreingenommene Optimierungsmethode, die die Token-Effizienz verbessert und gleichzeitig die Leistung bei der logischen Schlussfolgerung beibehält. Mit diesen Erkenntnissen präsentieren wir ein minimalistisches R1-Zero-Rezept, das mit einem 7B-Basismodell eine Genauigkeit von 43,3 % auf AIME 2024 erreicht und damit einen neuen State-of-the-art etabliert. Unser Code ist verfügbar unter https://github.com/sail-sg/understand-r1-zero.
English
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can directly enhance the reasoning capabilities of LLMs without supervised fine-tuning. In this work, we critically examine R1-Zero-like training by analyzing its two core components: base models and RL. We investigate a wide range of base models, including DeepSeek-V3-Base, to understand how pretraining characteristics influence RL performance. Our analysis reveals that DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models demonstrate strong reasoning capabilities even without prompt templates, suggesting potential pretraining biases. Additionally, we identify an optimization bias in Group Relative Policy Optimization (GRPO), which artificially increases response length (especially for incorrect outputs) during training. To address this, we introduce Dr. GRPO, an unbiased optimization method that improves token efficiency while maintaining reasoning performance. Leveraging these insights, we present a minimalist R1-Zero recipe that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a new state-of-the-art. Our code is available at https://github.com/sail-sg/understand-r1-zero.

Summary

AI-Generated Summary

PDF473April 3, 2025