Phi-4-Mini-Reasoning : Explorer les limites des petits modèles de langage de raisonnement en mathématiques
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
April 30, 2025
Auteurs: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI
Résumé
La méthode Chain-of-Thought (CoT) améliore significativement les capacités de raisonnement formel des grands modèles de langage (LLMs) en les entraînant à générer explicitement des étapes de raisonnement intermédiaires. Bien que les LLMs bénéficient facilement de telles techniques, améliorer le raisonnement des petits modèles de langage (SLMs) reste un défi en raison de leur capacité limitée. Les travaux récents de Deepseek-R1 montrent que la distillation à partir de données synthétiques générées par des LLMs peut considérablement améliorer les capacités de raisonnement des SLMs. Cependant, la recette de modélisation détaillée n'est pas divulguée. Dans ce travail, nous présentons une recette d'entraînement systématique pour les SLMs, composée de quatre étapes : (1) un pré-entraînement à grande échelle sur des données long-CoT distillées et diversifiées, (2) un fine-tuning supervisé sur des données long-CoT de haute qualité, (3) un Rollout DPO exploitant un ensemble de données de préférences soigneusement sélectionné, et (4) un apprentissage par renforcement (RL) avec récompense vérifiable. Nous appliquons notre méthode à Phi-4-Mini, un modèle compact de 3,8 milliards de paramètres. Le modèle résultant, Phi-4-Mini-Reasoning, surpasse, sur des tâches de raisonnement mathématique, des modèles de raisonnement beaucoup plus grands, par exemple en surpassant DeepSeek-R1-Distill-Qwen-7B de 3,2 points et DeepSeek-R1-Distill-Llama-8B de 7,7 points sur Math-500. Nos résultats valident qu'une recette d'entraînement soigneusement conçue, avec des données CoT de haute qualité à grande échelle, est efficace pour débloquer de solides capacités de raisonnement même dans des petits modèles aux ressources limitées.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities
in Large Language Models (LLMs) by training them to explicitly generate
intermediate reasoning steps. While LLMs readily benefit from such techniques,
improving reasoning in Small Language Models (SLMs) remains challenging due to
their limited model capacity. Recent work by Deepseek-R1 demonstrates that
distillation from LLM-generated synthetic data can substantially improve the
reasoning ability of SLM. However, the detailed modeling recipe is not
disclosed. In this work, we present a systematic training recipe for SLMs that
consists of four steps: (1) large-scale mid-training on diverse distilled
long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3)
Rollout DPO leveraging a carefully curated preference dataset, and (4)
Reinforcement Learning (RL) with Verifiable Reward. We apply our method on
Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning
model exceeds, on math reasoning tasks, much larger reasoning models, e.g.,
outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and
DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate
that a carefully designed training recipe, with large-scale high-quality CoT
data, is effective to unlock strong reasoning capabilities even in
resource-constrained small models.