Quando è Importante il Ragionamento? Uno Studio Controllato sul Contributo del Ragionamento alle Prestazioni del Modello
When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance
September 26, 2025
Autori: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Kevin El-Haddad, Céline Hudelot, Pierre Colombo
cs.AI
Abstract
I Modelli Linguistici di Grande Dimensione (LLM) con capacità di ragionamento hanno raggiunto prestazioni all'avanguardia in un'ampia gamma di compiti. Nonostante il loro successo empirico, i compiti e le scale di modello in cui il ragionamento diventa efficace, così come i costi di addestramento e inferenza, rimangono poco esplorati. In questo lavoro, ci affidiamo a un framework di distillazione di dati sintetici per condurre uno studio supervisionato su larga scala. Confrontiamo il Fine-Tuning su Istruzioni (IFT) e i modelli di ragionamento di dimensioni variabili, su un'ampia gamma di compiti centrati sulla matematica e di uso generale, valutando sia formati a scelta multipla che a risposta aperta. La nostra analisi rivela che il ragionamento migliora costantemente le prestazioni del modello, spesso eguagliando o superando sistemi IFT significativamente più grandi. In particolare, mentre l'IFT rimane Pareto-ottimale in termini di costi di addestramento e inferenza, i modelli di ragionamento diventano sempre più preziosi man mano che la dimensione del modello scala, superando i limiti di prestazione dell'IFT su compiti intensivi di ragionamento e a risposta aperta.
English
Large Language Models (LLMs) with reasoning capabilities have achieved
state-of-the-art performance on a wide range of tasks. Despite its empirical
success, the tasks and model scales at which reasoning becomes effective, as
well as its training and inference costs, remain underexplored. In this work,
we rely on a synthetic data distillation framework to conduct a large-scale
supervised study. We compare Instruction Fine-Tuning (IFT) and reasoning models
of varying sizes, on a wide range of math-centric and general-purpose tasks,
evaluating both multiple-choice and open-ended formats. Our analysis reveals
that reasoning consistently improves model performance, often matching or
surpassing significantly larger IFT systems. Notably, while IFT remains
Pareto-optimal in training and inference costs, reasoning models become
increasingly valuable as model size scales, overcoming IFT performance limits
on reasoning-intensive and open-ended tasks.