¿Cuándo Importa el Razonamiento? Un Estudio Controlado sobre la Contribución del Razonamiento al Desempeño del Modelo
When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance
September 26, 2025
Autores: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, Céline Hudelot, Pierre Colombo
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con capacidades de razonamiento han alcanzado un rendimiento de vanguardia en una amplia gama de tareas. A pesar de su éxito empírico, las tareas y escalas de modelos en las que el razonamiento se vuelve efectivo, así como sus costos de entrenamiento e inferencia, siguen siendo poco explorados. En este trabajo, nos basamos en un marco de destilación de datos sintéticos para llevar a cabo un estudio supervisado a gran escala. Comparamos el Ajuste Fino por Instrucción (IFT, por sus siglas en inglés) y modelos de razonamiento de diversos tamaños, en una amplia variedad de tareas centradas en matemáticas y de propósito general, evaluando tanto formatos de opción múltiple como de respuesta abierta. Nuestro análisis revela que el razonamiento mejora consistentemente el rendimiento del modelo, a menudo igualando o superando significativamente a sistemas IFT de mayor tamaño. Notablemente, aunque el IFT sigue siendo Pareto-óptimo en términos de costos de entrenamiento e inferencia, los modelos de razonamiento se vuelven cada vez más valiosos a medida que aumenta el tamaño del modelo, superando los límites de rendimiento del IFT en tareas intensivas en razonamiento y de respuesta abierta.
English
Large Language Models (LLMs) with reasoning capabilities have achieved
state-of-the-art performance on a wide range of tasks. Despite its empirical
success, the tasks and model scales at which reasoning becomes effective, as
well as its training and inference costs, remain underexplored. In this work,
we rely on a synthetic data distillation framework to conduct a large-scale
supervised study. We compare Instruction Fine-Tuning (IFT) and reasoning models
of varying sizes, on a wide range of math-centric and general-purpose tasks,
evaluating both multiple-choice and open-ended formats. Our analysis reveals
that reasoning consistently improves model performance, often matching or
surpassing significantly larger IFT systems. Notably, while IFT remains
Pareto-optimal in training and inference costs, reasoning models become
increasingly valuable as model size scales, overcoming IFT performance limits
on reasoning-intensive and open-ended tasks.