ChatPaper.aiChatPaper

Phi-4-Mini-Reasoning: Esplorare i Limiti dei Modelli Linguistici di Ragionamento di Piccole Dimensioni in Matematica

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

April 30, 2025
Autori: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI

Abstract

Chain-of-Thought (CoT) migliora significativamente le capacità di ragionamento formale nei Large Language Models (LLMs) addestrandoli a generare esplicitamente passaggi di ragionamento intermedi. Mentre i LLMs traggono facilmente vantaggio da tali tecniche, migliorare il ragionamento nei Small Language Models (SLMs) rimane una sfida a causa della loro limitata capacità del modello. Recenti lavori di Deepseek-R1 dimostrano che la distillazione da dati sintetici generati da LLM può migliorare sostanzialmente la capacità di ragionamento degli SLM. Tuttavia, la ricetta dettagliata di modellazione non è stata divulgata. In questo lavoro, presentiamo una ricetta di addestramento sistematica per gli SLM che consiste in quattro passaggi: (1) addestramento su larga scala su dati long-CoT distillati e diversificati, (2) fine-tuning supervisionato su dati long-CoT di alta qualità, (3) Rollout DPO sfruttando un dataset di preferenze accuratamente curato, e (4) Reinforcement Learning (RL) con ricompensa verificabile. Applichiamo il nostro metodo su Phi-4-Mini, un modello compatto da 3,8 miliardi di parametri. Il modello risultante, Phi-4-Mini-Reasoning, supera, nei compiti di ragionamento matematico, modelli di ragionamento molto più grandi, ad esempio superando DeepSeek-R1-Distill-Qwen-7B di 3,2 punti e DeepSeek-R1-Distill-Llama-8B di 7,7 punti su Math-500. I nostri risultati confermano che una ricetta di addestramento attentamente progettata, con dati CoT su larga scala e di alta qualità, è efficace per sbloccare forti capacità di ragionamento anche in modelli piccoli con risorse limitate.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities in Large Language Models (LLMs) by training them to explicitly generate intermediate reasoning steps. While LLMs readily benefit from such techniques, improving reasoning in Small Language Models (SLMs) remains challenging due to their limited model capacity. Recent work by Deepseek-R1 demonstrates that distillation from LLM-generated synthetic data can substantially improve the reasoning ability of SLM. However, the detailed modeling recipe is not disclosed. In this work, we present a systematic training recipe for SLMs that consists of four steps: (1) large-scale mid-training on diverse distilled long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3) Rollout DPO leveraging a carefully curated preference dataset, and (4) Reinforcement Learning (RL) with Verifiable Reward. We apply our method on Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e.g., outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate that a carefully designed training recipe, with large-scale high-quality CoT data, is effective to unlock strong reasoning capabilities even in resource-constrained small models.
PDF482May 4, 2025