Compreendendo o Treinamento do Tipo R1-Zero: Uma Perspectiva Crítica
Understanding R1-Zero-Like Training: A Critical Perspective
March 26, 2025
Autores: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Resumo
O DeepSeek-R1-Zero demonstrou que o aprendizado por reforço (RL) em larga escala pode aprimorar diretamente as capacidades de raciocínio dos LLMs (Large Language Models) sem a necessidade de ajuste fino supervisionado. Neste trabalho, examinamos criticamente o treinamento semelhante ao R1-Zero, analisando seus dois componentes principais: modelos base e RL. Investigamos uma ampla gama de modelos base, incluindo o DeepSeek-V3-Base, para entender como as características do pré-treinamento influenciam o desempenho do RL. Nossa análise revela que o DeepSeek-V3-Base já exibe o "momento Aha", enquanto os modelos base Qwen2.5 demonstram fortes capacidades de raciocínio mesmo sem o uso de templates de prompt, sugerindo possíveis vieses no pré-treinamento. Além disso, identificamos um viés de otimização no Group Relative Policy Optimization (GRPO), que aumenta artificialmente o comprimento das respostas (especialmente para saídas incorretas) durante o treinamento. Para resolver isso, introduzimos o Dr. GRPO, um método de otimização sem viés que melhora a eficiência de tokens enquanto mantém o desempenho de raciocínio. Aproveitando essas descobertas, apresentamos uma receita minimalista do R1-Zero que alcança 43,3% de precisão no AIME 2024 com um modelo base de 7B, estabelecendo um novo estado da arte. Nosso código está disponível em https://github.com/sail-sg/understand-r1-zero.
English
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can
directly enhance the reasoning capabilities of LLMs without supervised
fine-tuning. In this work, we critically examine R1-Zero-like training by
analyzing its two core components: base models and RL. We investigate a wide
range of base models, including DeepSeek-V3-Base, to understand how pretraining
characteristics influence RL performance. Our analysis reveals that
DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models
demonstrate strong reasoning capabilities even without prompt templates,
suggesting potential pretraining biases. Additionally, we identify an
optimization bias in Group Relative Policy Optimization (GRPO), which
artificially increases response length (especially for incorrect outputs)
during training. To address this, we introduce Dr. GRPO, an unbiased
optimization method that improves token efficiency while maintaining reasoning
performance. Leveraging these insights, we present a minimalist R1-Zero recipe
that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a
new state-of-the-art. Our code is available at
https://github.com/sail-sg/understand-r1-zero.