ChatPaper.aiChatPaper

Phi-4-Mini-Reasoning: Die Grenzen kleiner Reasoning-Sprachmodelle in der Mathematik erforschen

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

April 30, 2025
Autoren: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI

Zusammenfassung

Chain-of-Thought (CoT) verbessert die formalen Denkfähigkeiten von Large Language Models (LLMs) erheblich, indem es sie darauf trainiert, explizit Zwischenschritte der Argumentation zu generieren. Während LLMs von solchen Techniken deutlich profitieren, bleibt die Verbesserung der Denkfähigkeiten in Small Language Models (SLMs) aufgrund ihrer begrenzten Modellkapazität eine Herausforderung. Aktuelle Arbeiten von Deepseek-R1 zeigen, dass die Destillation aus synthetischen Daten, die von LLMs generiert wurden, die Denkfähigkeiten von SLMs erheblich steigern kann. Allerdings wird das detaillierte Modellierungsrezept nicht offengelegt. In dieser Arbeit präsentieren wir ein systematisches Trainingsrezept für SLMs, das aus vier Schritten besteht: (1) groß angelegtes Mid-Training auf diversen destillierten langen CoT-Daten, (2) überwachtes Fein-Tuning auf hochwertigen langen CoT-Daten, (3) Rollout DPO unter Nutzung eines sorgfältig kuratierten Präferenzdatensatzes und (4) Reinforcement Learning (RL) mit verifizierbarer Belohnung. Wir wenden unsere Methode auf Phi-4-Mini an, ein kompaktes Modell mit 3,8 Milliarden Parametern. Das daraus resultierende Phi-4-Mini-Reasoning-Modell übertrifft bei mathematischen Denkaufgaben deutlich größere Denkmodelle, z. B. übertrifft es DeepSeek-R1-Distill-Qwen-7B um 3,2 Punkte und DeepSeek-R1-Distill-Llama-8B um 7,7 Punkte auf Math-500. Unsere Ergebnisse bestätigen, dass ein sorgfältig gestaltetes Trainingsrezept mit groß angelegten, hochwertigen CoT-Daten effektiv ist, um starke Denkfähigkeiten auch in ressourcenbeschränkten kleinen Modellen freizusetzen.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities in Large Language Models (LLMs) by training them to explicitly generate intermediate reasoning steps. While LLMs readily benefit from such techniques, improving reasoning in Small Language Models (SLMs) remains challenging due to their limited model capacity. Recent work by Deepseek-R1 demonstrates that distillation from LLM-generated synthetic data can substantially improve the reasoning ability of SLM. However, the detailed modeling recipe is not disclosed. In this work, we present a systematic training recipe for SLMs that consists of four steps: (1) large-scale mid-training on diverse distilled long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3) Rollout DPO leveraging a carefully curated preference dataset, and (4) Reinforcement Learning (RL) with Verifiable Reward. We apply our method on Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e.g., outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate that a carefully designed training recipe, with large-scale high-quality CoT data, is effective to unlock strong reasoning capabilities even in resource-constrained small models.
PDF472May 4, 2025