Phi-4-Mini-Reasoning: Die Grenzen kleiner Reasoning-Sprachmodelle in der Mathematik erforschen
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
April 30, 2025
Autoren: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI
Zusammenfassung
Chain-of-Thought (CoT) verbessert die formalen Denkfähigkeiten von Large Language Models (LLMs) erheblich, indem es sie darauf trainiert, explizit Zwischenschritte der Argumentation zu generieren. Während LLMs von solchen Techniken deutlich profitieren, bleibt die Verbesserung der Denkfähigkeiten in Small Language Models (SLMs) aufgrund ihrer begrenzten Modellkapazität eine Herausforderung. Aktuelle Arbeiten von Deepseek-R1 zeigen, dass die Destillation aus synthetischen Daten, die von LLMs generiert wurden, die Denkfähigkeiten von SLMs erheblich steigern kann. Allerdings wird das detaillierte Modellierungsrezept nicht offengelegt. In dieser Arbeit präsentieren wir ein systematisches Trainingsrezept für SLMs, das aus vier Schritten besteht: (1) groß angelegtes Mid-Training auf diversen destillierten langen CoT-Daten, (2) überwachtes Fein-Tuning auf hochwertigen langen CoT-Daten, (3) Rollout DPO unter Nutzung eines sorgfältig kuratierten Präferenzdatensatzes und (4) Reinforcement Learning (RL) mit verifizierbarer Belohnung. Wir wenden unsere Methode auf Phi-4-Mini an, ein kompaktes Modell mit 3,8 Milliarden Parametern. Das daraus resultierende Phi-4-Mini-Reasoning-Modell übertrifft bei mathematischen Denkaufgaben deutlich größere Denkmodelle, z. B. übertrifft es DeepSeek-R1-Distill-Qwen-7B um 3,2 Punkte und DeepSeek-R1-Distill-Llama-8B um 7,7 Punkte auf Math-500. Unsere Ergebnisse bestätigen, dass ein sorgfältig gestaltetes Trainingsrezept mit groß angelegten, hochwertigen CoT-Daten effektiv ist, um starke Denkfähigkeiten auch in ressourcenbeschränkten kleinen Modellen freizusetzen.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities
in Large Language Models (LLMs) by training them to explicitly generate
intermediate reasoning steps. While LLMs readily benefit from such techniques,
improving reasoning in Small Language Models (SLMs) remains challenging due to
their limited model capacity. Recent work by Deepseek-R1 demonstrates that
distillation from LLM-generated synthetic data can substantially improve the
reasoning ability of SLM. However, the detailed modeling recipe is not
disclosed. In this work, we present a systematic training recipe for SLMs that
consists of four steps: (1) large-scale mid-training on diverse distilled
long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3)
Rollout DPO leveraging a carefully curated preference dataset, and (4)
Reinforcement Learning (RL) with Verifiable Reward. We apply our method on
Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning
model exceeds, on math reasoning tasks, much larger reasoning models, e.g.,
outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and
DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate
that a carefully designed training recipe, with large-scale high-quality CoT
data, is effective to unlock strong reasoning capabilities even in
resource-constrained small models.