Phi-4-Mini-Reasoning: 数学における小型推論言語モデルの限界を探る
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
April 30, 2025
著者: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI
要旨
Chain-of-Thought(CoT)は、大規模言語モデル(LLM)が中間的な推論ステップを明示的に生成するよう訓練することで、形式的推論能力を大幅に向上させます。LLMはこのような手法から容易に恩恵を受けますが、小規模言語モデル(SLM)の推論能力の向上は、モデル容量の制約により依然として課題となっています。最近のDeepseek-R1の研究では、LLMが生成した合成データからの蒸留がSLMの推論能力を大幅に改善できることが示されました。しかし、詳細なモデリング手法は公開されていません。本研究では、SLMのための体系的な訓練手法を提案します。この手法は以下の4つのステップで構成されます:(1)多様な蒸留された長いCoTデータを用いた大規模な中間訓練、(2)高品質な長いCoTデータを用いた教師あり微調整、(3)慎重に選別された選好データセットを活用したRollout DPO、(4)検証可能な報酬を用いた強化学習(RL)。この手法を3.8BパラメータのコンパクトモデルであるPhi-4-Miniに適用し、Phi-4-Mini-Reasoningモデルを作成しました。結果として得られたモデルは、数学的推論タスクにおいて、はるかに大規模な推論モデルを上回り、例えばMath-500においてDeepSeek-R1-Distill-Qwen-7Bを3.2ポイント、DeepSeek-R1-Distill-Llama-8Bを7.7ポイント上回りました。これらの結果は、大規模で高品質なCoTデータを用いた慎重に設計された訓練手法が、リソースに制約のある小規模モデルにおいても強力な推論能力を引き出すのに有効であることを検証しています。
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities
in Large Language Models (LLMs) by training them to explicitly generate
intermediate reasoning steps. While LLMs readily benefit from such techniques,
improving reasoning in Small Language Models (SLMs) remains challenging due to
their limited model capacity. Recent work by Deepseek-R1 demonstrates that
distillation from LLM-generated synthetic data can substantially improve the
reasoning ability of SLM. However, the detailed modeling recipe is not
disclosed. In this work, we present a systematic training recipe for SLMs that
consists of four steps: (1) large-scale mid-training on diverse distilled
long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3)
Rollout DPO leveraging a carefully curated preference dataset, and (4)
Reinforcement Learning (RL) with Verifiable Reward. We apply our method on
Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning
model exceeds, on math reasoning tasks, much larger reasoning models, e.g.,
outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and
DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate
that a carefully designed training recipe, with large-scale high-quality CoT
data, is effective to unlock strong reasoning capabilities even in
resource-constrained small models.