Понимание обучения по типу R1-Zero: критический взгляд
Understanding R1-Zero-Like Training: A Critical Perspective
March 26, 2025
Авторы: Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Аннотация
DeepSeek-R1-Zero продемонстрировал, что масштабируемое обучение с подкреплением (RL) может напрямую улучшать способности к рассуждению у крупных языковых моделей (LLMs) без контролируемого тонкого настройки. В данной работе мы критически исследуем обучение, подобное R1-Zero, анализируя его два ключевых компонента: базовые модели и RL. Мы изучаем широкий спектр базовых моделей, включая DeepSeek-V3-Base, чтобы понять, как характеристики предварительного обучения влияют на производительность RL. Наш анализ показывает, что DeepSeek-V3-Base уже демонстрируют «момент озарения», в то время как базовые модели Qwen2.5 проявляют сильные способности к рассуждению даже без использования шаблонов подсказок, что указывает на возможные предубеждения в предварительном обучении. Кроме того, мы выявляем оптимизационное смещение в Group Relative Policy Optimization (GRPO), которое искусственно увеличивает длину ответов (особенно для неверных выводов) в процессе обучения. Для решения этой проблемы мы представляем Dr. GRPO — метод оптимизации без смещений, который повышает эффективность использования токенов, сохраняя при этом производительность в рассуждениях. Используя эти инсайты, мы предлагаем минималистичный рецепт R1-Zero, который достигает точности 43,3% на AIME 2024 с базовой моделью на 7B, устанавливая новый эталонный результат. Наш код доступен по адресу https://github.com/sail-sg/understand-r1-zero.
English
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can
directly enhance the reasoning capabilities of LLMs without supervised
fine-tuning. In this work, we critically examine R1-Zero-like training by
analyzing its two core components: base models and RL. We investigate a wide
range of base models, including DeepSeek-V3-Base, to understand how pretraining
characteristics influence RL performance. Our analysis reveals that
DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models
demonstrate strong reasoning capabilities even without prompt templates,
suggesting potential pretraining biases. Additionally, we identify an
optimization bias in Group Relative Policy Optimization (GRPO), which
artificially increases response length (especially for incorrect outputs)
during training. To address this, we introduce Dr. GRPO, an unbiased
optimization method that improves token efficiency while maintaining reasoning
performance. Leveraging these insights, we present a minimalist R1-Zero recipe
that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a
new state-of-the-art. Our code is available at
https://github.com/sail-sg/understand-r1-zero.Summary
AI-Generated Summary