Comprendre l'entraînement de type R1-Zero : une perspective critique
Understanding R1-Zero-Like Training: A Critical Perspective
March 26, 2025
Auteurs: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Résumé
DeepSeek-R1-Zero a démontré que l'apprentissage par renforcement (RL) à grande échelle peut directement améliorer les capacités de raisonnement des LLMs sans nécessiter de fine-tuning supervisé. Dans ce travail, nous examinons de manière critique l'entraînement de type R1-Zero en analysant ses deux composants principaux : les modèles de base et le RL. Nous explorons une large gamme de modèles de base, y compris DeepSeek-V3-Base, pour comprendre comment les caractéristiques du pré-entraînement influencent les performances du RL. Notre analyse révèle que DeepSeek-V3-Base présente déjà un « moment Eurêka », tandis que les modèles de base Qwen2.5 démontrent de solides capacités de raisonnement même sans modèles de prompt, suggérant des biais potentiels dans le pré-entraînement. De plus, nous identifions un biais d'optimisation dans la Group Relative Policy Optimization (GRPO), qui augmente artificiellement la longueur des réponses (en particulier pour les sorties incorrectes) pendant l'entraînement. Pour remédier à cela, nous introduisons Dr. GRPO, une méthode d'optimisation non biaisée qui améliore l'efficacité des tokens tout en maintenant les performances de raisonnement. En tirant parti de ces insights, nous présentons une recette minimaliste de R1-Zero qui atteint une précision de 43,3 % sur AIME 2024 avec un modèle de base de 7B, établissant ainsi un nouvel état de l'art. Notre code est disponible à l'adresse https://github.com/sail-sg/understand-r1-zero.
English
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can
directly enhance the reasoning capabilities of LLMs without supervised
fine-tuning. In this work, we critically examine R1-Zero-like training by
analyzing its two core components: base models and RL. We investigate a wide
range of base models, including DeepSeek-V3-Base, to understand how pretraining
characteristics influence RL performance. Our analysis reveals that
DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models
demonstrate strong reasoning capabilities even without prompt templates,
suggesting potential pretraining biases. Additionally, we identify an
optimization bias in Group Relative Policy Optimization (GRPO), which
artificially increases response length (especially for incorrect outputs)
during training. To address this, we introduce Dr. GRPO, an unbiased
optimization method that improves token efficiency while maintaining reasoning
performance. Leveraging these insights, we present a minimalist R1-Zero recipe
that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a
new state-of-the-art. Our code is available at
https://github.com/sail-sg/understand-r1-zero.Summary
AI-Generated Summary