ChatPaper.aiChatPaper

Quando o Raciocínio Importa? Um Estudo Controlado sobre a Contribuição do Raciocínio para o Desempenho do Modelo

When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance

September 26, 2025
Autores: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, Céline Hudelot, Pierre Colombo
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) com capacidades de raciocínio alcançaram desempenho de ponta em uma ampla gama de tarefas. Apesar do sucesso empírico, as tarefas e escalas de modelos nas quais o raciocínio se torna eficaz, bem como seus custos de treinamento e inferência, permanecem pouco explorados. Neste trabalho, utilizamos um framework de destilação de dados sintéticos para conduzir um estudo supervisionado em larga escala. Comparamos o Fine-Tuning por Instrução (IFT) e modelos de raciocínio de tamanhos variados, em uma ampla variedade de tarefas centradas em matemática e de propósito geral, avaliando tanto formatos de múltipla escolha quanto de resposta aberta. Nossa análise revela que o raciocínio melhora consistentemente o desempenho do modelo, muitas vezes igualando ou superando sistemas IFT significativamente maiores. Notavelmente, embora o IFT permaneça Pareto-ótimo em termos de custos de treinamento e inferência, os modelos de raciocínio tornam-se cada vez mais valiosos à medida que a escala do modelo aumenta, superando os limites de desempenho do IFT em tarefas intensivas em raciocínio e de resposta aberta.
English
Large Language Models (LLMs) with reasoning capabilities have achieved state-of-the-art performance on a wide range of tasks. Despite its empirical success, the tasks and model scales at which reasoning becomes effective, as well as its training and inference costs, remain underexplored. In this work, we rely on a synthetic data distillation framework to conduct a large-scale supervised study. We compare Instruction Fine-Tuning (IFT) and reasoning models of varying sizes, on a wide range of math-centric and general-purpose tasks, evaluating both multiple-choice and open-ended formats. Our analysis reveals that reasoning consistently improves model performance, often matching or surpassing significantly larger IFT systems. Notably, while IFT remains Pareto-optimal in training and inference costs, reasoning models become increasingly valuable as model size scales, overcoming IFT performance limits on reasoning-intensive and open-ended tasks.
PDF373September 30, 2025