Phi-4-Mini-Reasoning: Explorando os Limites de Pequenos Modelos de Linguagem de Raciocínio em Matemática

Resumo

O Chain-of-Thought (CoT) aprimora significativamente as capacidades de raciocínio formal em Large Language Models (LLMs) ao treiná-los para gerar explicitamente etapas intermediárias de raciocínio. Embora os LLMs se beneficiem facilmente de tais técnicas, melhorar o raciocínio em Small Language Models (SLMs) continua desafiador devido à sua capacidade limitada de modelo. Trabalhos recentes do Deepseek-R1 demonstram que a destilação de dados sintéticos gerados por LLMs pode melhorar substancialmente a capacidade de raciocínio de SLMs. No entanto, a receita detalhada de modelagem não é divulgada. Neste trabalho, apresentamos uma receita sistemática de treinamento para SLMs que consiste em quatro etapas: (1) treinamento intermediário em larga escala com dados diversos de long-CoT destilados, (2) ajuste fino supervisionado com dados de long-CoT de alta qualidade, (3) Rollout DPO utilizando um conjunto de dados de preferência cuidadosamente curado, e (4) Aprendizado por Reforço (RL) com Recompensa Verificável. Aplicamos nosso método no Phi-4-Mini, um modelo compacto de 3,8 bilhões de parâmetros. O modelo resultante, Phi-4-Mini-Reasoning, supera, em tarefas de raciocínio matemático, modelos de raciocínio muito maiores, por exemplo, superando o DeepSeek-R1-Distill-Qwen-7B em 3,2 pontos e o DeepSeek-R1-Distill-Llama-8B em 7,7 pontos no Math-500. Nossos resultados validam que uma receita de treinamento cuidadosamente projetada, com dados de CoT em larga escala e de alta qualidade, é eficaz para desbloquear fortes capacidades de raciocínio mesmo em modelos pequenos com recursos limitados.

English

Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities in Large Language Models (LLMs) by training them to explicitly generate intermediate reasoning steps. While LLMs readily benefit from such techniques, improving reasoning in Small Language Models (SLMs) remains challenging due to their limited model capacity. Recent work by Deepseek-R1 demonstrates that distillation from LLM-generated synthetic data can substantially improve the reasoning ability of SLM. However, the detailed modeling recipe is not disclosed. In this work, we present a systematic training recipe for SLMs that consists of four steps: (1) large-scale mid-training on diverse distilled long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3) Rollout DPO leveraging a carefully curated preference dataset, and (4) Reinforcement Learning (RL) with Verifiable Reward. We apply our method on Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e.g., outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate that a carefully designed training recipe, with large-scale high-quality CoT data, is effective to unlock strong reasoning capabilities even in resource-constrained small models.

Phi-4-Mini-Reasoning: Explorando os Limites de Pequenos Modelos de Linguagem de Raciocínio em Matemática

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

Resumo

Support