ChatPaper.aiChatPaper

Phi-4-Mini-Reasoning: Het verkennen van de grenzen van kleine redeneertaalmodellen in wiskunde

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

April 30, 2025
Auteurs: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI

Samenvatting

Chain-of-Thought (CoT) verbetert de formele redeneervaardigheden van Large Language Models (LLMs) aanzienlijk door ze te trainen om expliciet tussenliggende redeneerstappen te genereren. Hoewel LLMs duidelijk baat hebben bij dergelijke technieken, blijft het verbeteren van redeneervaardigheden in Small Language Models (SLMs) een uitdaging vanwege hun beperkte modelcapaciteit. Recent werk van Deepseek-R1 toont aan dat distillatie van door LLM gegenereerde synthetische data de redeneervaardigheid van SLM aanzienlijk kan verbeteren. Het gedetailleerde modelrecept wordt echter niet vrijgegeven. In dit werk presenteren we een systematisch trainingsrecept voor SLMs dat uit vier stappen bestaat: (1) grootschalige mid-training op diverse gedistilleerde lange-CoT-data, (2) supervised fine-tuning op hoogwaardige lange-CoT-data, (3) Rollout DPO met behulp van een zorgvuldig samengestelde voorkeursdataset, en (4) Reinforcement Learning (RL) met Verifieerbare Beloning. We passen onze methode toe op Phi-4-Mini, een compact model met 3,8 miljard parameters. Het resulterende Phi-4-Mini-Reasoning model overtreft, bij wiskundige redeneertaken, veel grotere redeneermodellen, bijvoorbeeld door DeepSeek-R1-Distill-Qwen-7B met 3,2 punten en DeepSeek-R1-Distill-Llama-8B met 7,7 punten te verslaan op Math-500. Onze resultaten valideren dat een zorgvuldig ontworpen trainingsrecept, met grootschalige hoogwaardige CoT-data, effectief is om sterke redeneervaardigheden te ontgrendelen, zelfs in resource-beperkte kleine modellen.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities in Large Language Models (LLMs) by training them to explicitly generate intermediate reasoning steps. While LLMs readily benefit from such techniques, improving reasoning in Small Language Models (SLMs) remains challenging due to their limited model capacity. Recent work by Deepseek-R1 demonstrates that distillation from LLM-generated synthetic data can substantially improve the reasoning ability of SLM. However, the detailed modeling recipe is not disclosed. In this work, we present a systematic training recipe for SLMs that consists of four steps: (1) large-scale mid-training on diverse distilled long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3) Rollout DPO leveraging a carefully curated preference dataset, and (4) Reinforcement Learning (RL) with Verifiable Reward. We apply our method on Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e.g., outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate that a carefully designed training recipe, with large-scale high-quality CoT data, is effective to unlock strong reasoning capabilities even in resource-constrained small models.
PDF482May 4, 2025