Inzicht in R1-Zero-achtige Training: Een Kritisch Perspectief
Understanding R1-Zero-Like Training: A Critical Perspective
March 26, 2025
Auteurs: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Samenvatting
DeepSeek-R1-Zero heeft aangetoond dat reinforcement learning (RL) op grote schaal de redeneervaardigheden van LLMs direct kan verbeteren zonder supervised fine-tuning. In dit werk onderzoeken we kritisch R1-Zero-achtige training door de twee kerncomponenten te analyseren: basismodellen en RL. We onderzoeken een breed scala aan basismodellen, waaronder DeepSeek-V3-Base, om te begrijpen hoe pretrainingkenmerken de RL-prestaties beïnvloeden. Onze analyse onthult dat DeepSeek-V3-Base al een "Aha-moment" vertoont, terwijl Qwen2.5-basismodellen sterke redeneervaardigheden demonstreren zelfs zonder prompt templates, wat suggereert dat er mogelijke vooroordelen in de pretraining zitten. Daarnaast identificeren we een optimalisatiebias in Group Relative Policy Optimization (GRPO), die de responslengte kunstmatig verhoogt (met name voor incorrecte uitvoer) tijdens de training. Om dit aan te pakken, introduceren we Dr. GRPO, een onbevooroordeelde optimalisatiemethode die de token-efficiëntie verbetert terwijl de redeneerprestaties behouden blijven. Gebruikmakend van deze inzichten presenteren we een minimalistisch R1-Zero-recept dat een nauwkeurigheid van 43,3% behaalt op AIME 2024 met een 7B-basismodel, waarmee een nieuwe state-of-the-art wordt gevestigd. Onze code is beschikbaar op https://github.com/sail-sg/understand-r1-zero.
English
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can
directly enhance the reasoning capabilities of LLMs without supervised
fine-tuning. In this work, we critically examine R1-Zero-like training by
analyzing its two core components: base models and RL. We investigate a wide
range of base models, including DeepSeek-V3-Base, to understand how pretraining
characteristics influence RL performance. Our analysis reveals that
DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models
demonstrate strong reasoning capabilities even without prompt templates,
suggesting potential pretraining biases. Additionally, we identify an
optimization bias in Group Relative Policy Optimization (GRPO), which
artificially increases response length (especially for incorrect outputs)
during training. To address this, we introduce Dr. GRPO, an unbiased
optimization method that improves token efficiency while maintaining reasoning
performance. Leveraging these insights, we present a minimalist R1-Zero recipe
that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a
new state-of-the-art. Our code is available at
https://github.com/sail-sg/understand-r1-zero.Summary
AI-Generated Summary