Phi-4-Mini-Reasoning: Esplorare i Limiti dei Modelli Linguistici di Ragionamento di Piccole Dimensioni in Matematica
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
April 30, 2025
Autori: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI
Abstract
Chain-of-Thought (CoT) migliora significativamente le capacità di ragionamento formale nei Large Language Models (LLMs) addestrandoli a generare esplicitamente passaggi di ragionamento intermedi. Mentre i LLMs traggono facilmente vantaggio da tali tecniche, migliorare il ragionamento nei Small Language Models (SLMs) rimane una sfida a causa della loro limitata capacità del modello. Recenti lavori di Deepseek-R1 dimostrano che la distillazione da dati sintetici generati da LLM può migliorare sostanzialmente la capacità di ragionamento degli SLM. Tuttavia, la ricetta dettagliata di modellazione non è stata divulgata. In questo lavoro, presentiamo una ricetta di addestramento sistematica per gli SLM che consiste in quattro passaggi: (1) addestramento su larga scala su dati long-CoT distillati e diversificati, (2) fine-tuning supervisionato su dati long-CoT di alta qualità, (3) Rollout DPO sfruttando un dataset di preferenze accuratamente curato, e (4) Reinforcement Learning (RL) con ricompensa verificabile. Applichiamo il nostro metodo su Phi-4-Mini, un modello compatto da 3,8 miliardi di parametri. Il modello risultante, Phi-4-Mini-Reasoning, supera, nei compiti di ragionamento matematico, modelli di ragionamento molto più grandi, ad esempio superando DeepSeek-R1-Distill-Qwen-7B di 3,2 punti e DeepSeek-R1-Distill-Llama-8B di 7,7 punti su Math-500. I nostri risultati confermano che una ricetta di addestramento attentamente progettata, con dati CoT su larga scala e di alta qualità, è efficace per sbloccare forti capacità di ragionamento anche in modelli piccoli con risorse limitate.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities
in Large Language Models (LLMs) by training them to explicitly generate
intermediate reasoning steps. While LLMs readily benefit from such techniques,
improving reasoning in Small Language Models (SLMs) remains challenging due to
their limited model capacity. Recent work by Deepseek-R1 demonstrates that
distillation from LLM-generated synthetic data can substantially improve the
reasoning ability of SLM. However, the detailed modeling recipe is not
disclosed. In this work, we present a systematic training recipe for SLMs that
consists of four steps: (1) large-scale mid-training on diverse distilled
long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3)
Rollout DPO leveraging a carefully curated preference dataset, and (4)
Reinforcement Learning (RL) with Verifiable Reward. We apply our method on
Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning
model exceeds, on math reasoning tasks, much larger reasoning models, e.g.,
outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and
DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate
that a carefully designed training recipe, with large-scale high-quality CoT
data, is effective to unlock strong reasoning capabilities even in
resource-constrained small models.