Phi-4-Mini-Reasoning: Исследование пределов малых языковых моделей для решения математических задач
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
April 30, 2025
Авторы: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI
Аннотация
Метод Chain-of-Thought (CoT) значительно улучшает способности к формальному рассуждению в крупных языковых моделях (LLM), обучая их явно генерировать промежуточные шаги рассуждений. Хотя LLM легко извлекают пользу из таких методов, улучшение способностей к рассуждению в малых языковых моделях (SLM) остается сложной задачей из-за их ограниченной емкости. Недавняя работа Deepseek-R1 демонстрирует, что дистилляция из синтетических данных, сгенерированных LLM, может существенно улучшить способности к рассуждению SLM. Однако детальный рецепт моделирования не раскрывается. В данной работе мы представляем систематический рецепт обучения для SLM, состоящий из четырех шагов: (1) масштабное промежуточное обучение на разнообразных дистиллированных данных long-CoT, (2) контролируемая тонкая настройка на высококачественных данных long-CoT, (3) Rollout DPO с использованием тщательно отобранного набора данных предпочтений и (4) обучение с подкреплением (RL) с проверяемой наградой. Мы применяем наш метод на модели Phi-4-Mini, компактной модели с 3,8 миллиардами параметров. Полученная модель Phi-4-Mini-Reasoning превосходит на задачах математического рассуждения значительно более крупные модели, например, опережая DeepSeek-R1-Distill-Qwen-7B на 3,2 балла и DeepSeek-R1-Distill-Llama-8B на 7,7 баллов на тесте Math-500. Наши результаты подтверждают, что тщательно разработанный рецепт обучения с использованием масштабных высококачественных данных CoT эффективен для раскрытия сильных способностей к рассуждению даже в ресурсоограниченных малых моделях.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities
in Large Language Models (LLMs) by training them to explicitly generate
intermediate reasoning steps. While LLMs readily benefit from such techniques,
improving reasoning in Small Language Models (SLMs) remains challenging due to
their limited model capacity. Recent work by Deepseek-R1 demonstrates that
distillation from LLM-generated synthetic data can substantially improve the
reasoning ability of SLM. However, the detailed modeling recipe is not
disclosed. In this work, we present a systematic training recipe for SLMs that
consists of four steps: (1) large-scale mid-training on diverse distilled
long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3)
Rollout DPO leveraging a carefully curated preference dataset, and (4)
Reinforcement Learning (RL) with Verifiable Reward. We apply our method on
Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning
model exceeds, on math reasoning tasks, much larger reasoning models, e.g.,
outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and
DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate
that a carefully designed training recipe, with large-scale high-quality CoT
data, is effective to unlock strong reasoning capabilities even in
resource-constrained small models.