Phi-4-Mini-Reasoning: Explorando los límites de los modelos de lenguaje pequeños en razonamiento matemático
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math
April 30, 2025
Autores: Haoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen
cs.AI
Resumen
Chain-of-Thought (CoT) mejora significativamente las capacidades de razonamiento formal en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) al entrenarlos para generar explícitamente pasos intermedios de razonamiento. Aunque los LLMs se benefician fácilmente de estas técnicas, mejorar el razonamiento en los Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) sigue siendo un desafío debido a su capacidad limitada. Trabajos recientes de Deepseek-R1 demuestran que la destilación a partir de datos sintéticos generados por LLMs puede mejorar sustancialmente la capacidad de razonamiento de los SLMs. Sin embargo, la receta detallada de modelado no se ha revelado. En este trabajo, presentamos una receta sistemática de entrenamiento para SLMs que consta de cuatro pasos: (1) entrenamiento intermedio a gran escala con datos diversos de CoT largo destilados, (2) ajuste fino supervisado con datos de CoT largo de alta calidad, (3) Rollout DPO utilizando un conjunto de datos de preferencias cuidadosamente seleccionado, y (4) Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con Recompensa Verificable. Aplicamos nuestro método en Phi-4-Mini, un modelo compacto de 3.8 mil millones de parámetros. El modelo resultante, Phi-4-Mini-Reasoning, supera, en tareas de razonamiento matemático, a modelos de razonamiento mucho más grandes, por ejemplo, superando a DeepSeek-R1-Distill-Qwen-7B por 3.2 puntos y a DeepSeek-R1-Distill-Llama-8B por 7.7 puntos en Math-500. Nuestros resultados validan que una receta de entrenamiento cuidadosamente diseñada, con datos de CoT de alta calidad a gran escala, es efectiva para desbloquear fuertes capacidades de razonamiento incluso en modelos pequeños con recursos limitados.
English
Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities
in Large Language Models (LLMs) by training them to explicitly generate
intermediate reasoning steps. While LLMs readily benefit from such techniques,
improving reasoning in Small Language Models (SLMs) remains challenging due to
their limited model capacity. Recent work by Deepseek-R1 demonstrates that
distillation from LLM-generated synthetic data can substantially improve the
reasoning ability of SLM. However, the detailed modeling recipe is not
disclosed. In this work, we present a systematic training recipe for SLMs that
consists of four steps: (1) large-scale mid-training on diverse distilled
long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3)
Rollout DPO leveraging a carefully curated preference dataset, and (4)
Reinforcement Learning (RL) with Verifiable Reward. We apply our method on
Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning
model exceeds, on math reasoning tasks, much larger reasoning models, e.g.,
outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and
DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate
that a carefully designed training recipe, with large-scale high-quality CoT
data, is effective to unlock strong reasoning capabilities even in
resource-constrained small models.