Quando è Importante il Ragionamento? Uno Studio Controllato sul Contributo del Ragionamento alle Prestazioni del Modello

Abstract

I Modelli Linguistici di Grande Dimensione (LLM) con capacità di ragionamento hanno raggiunto prestazioni all'avanguardia in un'ampia gamma di compiti. Nonostante il loro successo empirico, i compiti e le scale di modello in cui il ragionamento diventa efficace, così come i costi di addestramento e inferenza, rimangono poco esplorati. In questo lavoro, ci affidiamo a un framework di distillazione di dati sintetici per condurre uno studio supervisionato su larga scala. Confrontiamo il Fine-Tuning su Istruzioni (IFT) e i modelli di ragionamento di dimensioni variabili, su un'ampia gamma di compiti centrati sulla matematica e di uso generale, valutando sia formati a scelta multipla che a risposta aperta. La nostra analisi rivela che il ragionamento migliora costantemente le prestazioni del modello, spesso eguagliando o superando sistemi IFT significativamente più grandi. In particolare, mentre l'IFT rimane Pareto-ottimale in termini di costi di addestramento e inferenza, i modelli di ragionamento diventano sempre più preziosi man mano che la dimensione del modello scala, superando i limiti di prestazione dell'IFT su compiti intensivi di ragionamento e a risposta aperta.

English

Large Language Models (LLMs) with reasoning capabilities have achieved state-of-the-art performance on a wide range of tasks. Despite its empirical success, the tasks and model scales at which reasoning becomes effective, as well as its training and inference costs, remain underexplored. In this work, we rely on a synthetic data distillation framework to conduct a large-scale supervised study. We compare Instruction Fine-Tuning (IFT) and reasoning models of varying sizes, on a wide range of math-centric and general-purpose tasks, evaluating both multiple-choice and open-ended formats. Our analysis reveals that reasoning consistently improves model performance, often matching or surpassing significantly larger IFT systems. Notably, while IFT remains Pareto-optimal in training and inference costs, reasoning models become increasingly valuable as model size scales, overcoming IFT performance limits on reasoning-intensive and open-ended tasks.

Quando è Importante il Ragionamento? Uno Studio Controllato sul Contributo del Ragionamento alle Prestazioni del Modello

When Does Reasoning Matter? A Controlled Study of Reasoning's Contribution to Model Performance

Abstract

Support