Comprensión del Entrenamiento Tipo R1-Cero: Una Perspectiva Crítica
Understanding R1-Zero-Like Training: A Critical Perspective
March 26, 2025
Autores: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Resumen
DeepSeek-R1-Zero ha demostrado que el aprendizaje por refuerzo (RL, por sus siglas en inglés) a gran escala puede mejorar directamente las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs) sin necesidad de ajuste supervisado. En este trabajo, examinamos críticamente el entrenamiento similar a R1-Zero analizando sus dos componentes principales: los modelos base y el RL. Investigamos una amplia gama de modelos base, incluido DeepSeek-V3-Base, para comprender cómo las características del preentrenamiento influyen en el rendimiento del RL. Nuestro análisis revela que DeepSeek-V3-Base ya exhibe un "momento de comprensión" (Aha moment), mientras que los modelos base Qwen2.5 demuestran fuertes capacidades de razonamiento incluso sin plantillas de instrucción, lo que sugiere posibles sesgos en el preentrenamiento. Además, identificamos un sesgo de optimización en la Optimización de Política Relativa de Grupo (GRPO), que aumenta artificialmente la longitud de las respuestas (especialmente para salidas incorrectas) durante el entrenamiento. Para abordar esto, presentamos Dr. GRPO, un método de optimización sin sesgos que mejora la eficiencia de los tokens mientras mantiene el rendimiento en el razonamiento. Aprovechando estas ideas, presentamos una receta minimalista de R1-Zero que logra un 43.3% de precisión en AIME 2024 con un modelo base de 7B, estableciendo un nuevo estado del arte. Nuestro código está disponible en https://github.com/sail-sg/understand-r1-zero.
English
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can
directly enhance the reasoning capabilities of LLMs without supervised
fine-tuning. In this work, we critically examine R1-Zero-like training by
analyzing its two core components: base models and RL. We investigate a wide
range of base models, including DeepSeek-V3-Base, to understand how pretraining
characteristics influence RL performance. Our analysis reveals that
DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models
demonstrate strong reasoning capabilities even without prompt templates,
suggesting potential pretraining biases. Additionally, we identify an
optimization bias in Group Relative Policy Optimization (GRPO), which
artificially increases response length (especially for incorrect outputs)
during training. To address this, we introduce Dr. GRPO, an unbiased
optimization method that improves token efficiency while maintaining reasoning
performance. Leveraging these insights, we present a minimalist R1-Zero recipe
that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a
new state-of-the-art. Our code is available at
https://github.com/sail-sg/understand-r1-zero.Summary
AI-Generated Summary