Phi-4-Mini-Reasoning: Explorando os Limites de Pequenos Modelos de Linguagem de Raciocínio em Matemática
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
April 30, 2025
Autores: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI
Resumo
O Chain-of-Thought (CoT) aprimora significativamente as capacidades de raciocínio formal em Large Language Models (LLMs) ao treiná-los para gerar explicitamente etapas intermediárias de raciocínio. Embora os LLMs se beneficiem facilmente de tais técnicas, melhorar o raciocínio em Small Language Models (SLMs) continua desafiador devido à sua capacidade limitada de modelo. Trabalhos recentes do Deepseek-R1 demonstram que a destilação de dados sintéticos gerados por LLMs pode melhorar substancialmente a capacidade de raciocínio de SLMs. No entanto, a receita detalhada de modelagem não é divulgada. Neste trabalho, apresentamos uma receita sistemática de treinamento para SLMs que consiste em quatro etapas: (1) treinamento intermediário em larga escala com dados diversos de long-CoT destilados, (2) ajuste fino supervisionado com dados de long-CoT de alta qualidade, (3) Rollout DPO utilizando um conjunto de dados de preferência cuidadosamente curado, e (4) Aprendizado por Reforço (RL) com Recompensa Verificável. Aplicamos nosso método no Phi-4-Mini, um modelo compacto de 3,8 bilhões de parâmetros. O modelo resultante, Phi-4-Mini-Reasoning, supera, em tarefas de raciocínio matemático, modelos de raciocínio muito maiores, por exemplo, superando o DeepSeek-R1-Distill-Qwen-7B em 3,2 pontos e o DeepSeek-R1-Distill-Llama-8B em 7,7 pontos no Math-500. Nossos resultados validam que uma receita de treinamento cuidadosamente projetada, com dados de CoT em larga escala e de alta qualidade, é eficaz para desbloquear fortes capacidades de raciocínio mesmo em modelos pequenos com recursos limitados.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities
in Large Language Models (LLMs) by training them to explicitly generate
intermediate reasoning steps. While LLMs readily benefit from such techniques,
improving reasoning in Small Language Models (SLMs) remains challenging due to
their limited model capacity. Recent work by Deepseek-R1 demonstrates that
distillation from LLM-generated synthetic data can substantially improve the
reasoning ability of SLM. However, the detailed modeling recipe is not
disclosed. In this work, we present a systematic training recipe for SLMs that
consists of four steps: (1) large-scale mid-training on diverse distilled
long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3)
Rollout DPO leveraging a carefully curated preference dataset, and (4)
Reinforcement Learning (RL) with Verifiable Reward. We apply our method on
Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning
model exceeds, on math reasoning tasks, much larger reasoning models, e.g.,
outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and
DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate
that a carefully designed training recipe, with large-scale high-quality CoT
data, is effective to unlock strong reasoning capabilities even in
resource-constrained small models.