Phi-4-Mini-Reasoning: Explorando los límites de los modelos de lenguaje pequeños en razonamiento matemático

Resumen

Chain-of-Thought (CoT) mejora significativamente las capacidades de razonamiento formal en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) al entrenarlos para generar explícitamente pasos intermedios de razonamiento. Aunque los LLMs se benefician fácilmente de estas técnicas, mejorar el razonamiento en los Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) sigue siendo un desafío debido a su capacidad limitada. Trabajos recientes de Deepseek-R1 demuestran que la destilación a partir de datos sintéticos generados por LLMs puede mejorar sustancialmente la capacidad de razonamiento de los SLMs. Sin embargo, la receta detallada de modelado no se ha revelado. En este trabajo, presentamos una receta sistemática de entrenamiento para SLMs que consta de cuatro pasos: (1) entrenamiento intermedio a gran escala con datos diversos de CoT largo destilados, (2) ajuste fino supervisado con datos de CoT largo de alta calidad, (3) Rollout DPO utilizando un conjunto de datos de preferencias cuidadosamente seleccionado, y (4) Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con Recompensa Verificable. Aplicamos nuestro método en Phi-4-Mini, un modelo compacto de 3.8 mil millones de parámetros. El modelo resultante, Phi-4-Mini-Reasoning, supera, en tareas de razonamiento matemático, a modelos de razonamiento mucho más grandes, por ejemplo, superando a DeepSeek-R1-Distill-Qwen-7B por 3.2 puntos y a DeepSeek-R1-Distill-Llama-8B por 7.7 puntos en Math-500. Nuestros resultados validan que una receta de entrenamiento cuidadosamente diseñada, con datos de CoT de alta calidad a gran escala, es efectiva para desbloquear fuertes capacidades de razonamiento incluso en modelos pequeños con recursos limitados.

English

Chain-of-Thought (CoT) significantly enhances formal reasoning capabilities in Large Language Models (LLMs) by training them to explicitly generate intermediate reasoning steps. While LLMs readily benefit from such techniques, improving reasoning in Small Language Models (SLMs) remains challenging due to their limited model capacity. Recent work by Deepseek-R1 demonstrates that distillation from LLM-generated synthetic data can substantially improve the reasoning ability of SLM. However, the detailed modeling recipe is not disclosed. In this work, we present a systematic training recipe for SLMs that consists of four steps: (1) large-scale mid-training on diverse distilled long-CoT data, (2) supervised fine-tuning on high-quality long-CoT data, (3) Rollout DPO leveraging a carefully curated preference dataset, and (4) Reinforcement Learning (RL) with Verifiable Reward. We apply our method on Phi-4-Mini, a compact 3.8B-parameter model. The resulting Phi-4-Mini-Reasoning model exceeds, on math reasoning tasks, much larger reasoning models, e.g., outperforming DeepSeek-R1-Distill-Qwen-7B by 3.2 points and DeepSeek-R1-Distill-Llama-8B by 7.7 points on Math-500. Our results validate that a carefully designed training recipe, with large-scale high-quality CoT data, is effective to unlock strong reasoning capabilities even in resource-constrained small models.

Phi-4-Mini-Reasoning: Explorando los límites de los modelos de lenguaje pequeños en razonamiento matemático

Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

Resumen

Support