Lo Scaling dell'Inferenza Migliora la Fedeltà del Ragionamento? Un'Analisi Multi-Modello sui Compromessi dell'Auto-Consistenza

Abstract

L'autoconsistenza è emersa come una tecnica popolare per migliorare l'accuratezza dei grandi modelli linguistici nei compiti di ragionamento. L'approccio è semplice: generare molteplici percorsi di ragionamento e selezionare la risposta più comune attraverso un voto a maggioranza. Sebbene questo metodo aumenti affidabilmente l'accuratezza, non è chiaro se questi guadagni riflettano un reale miglioramento della qualità del ragionamento. Investigiamo una questione fondamentale mai studiata prima: lo scaling inferenziale migliora la fedeltà del ragionamento? Abbiamo condotto uno studio empirico completo su quattro modelli all'avanguardia (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview e DeepSeek-v3.2) su 100 problemi di ragionamento matematico del dataset GSM8K. La nostra analisi utilizza intervalli di confidenza bootstrap, test di McNemar per confronti appaiati e dimensioni dell'effetto Cohen's d per quantificare rigorosamente gli effetti. I risultati rivelano differenze sorprendenti tra i modelli che sfidano le ipotesi comuni sull'autoconsistenza. GPT-5.2 mostra il pattern atteso: l'accuratezza migliora dal 78% al 90% a N=5, mentre la fedeltà rimane relativamente stabile (da 0,540 a 0,510). Claude Opus 4.5 racconta una storia completamente diversa. La sua accuratezza diminuisce infatti dal 78% al 74,3%, mentre la fedeltà aumenta drammaticamente da 0,270 a 0,891 a N=5. DeepSeek-v3.2, già al 98% di accuratezza, mostra effetti di tetto con guadagni modesti in fedeltà (da 0,440 a 0,541). Gemini-3-flash migliora dall'81% all'86% in accuratezza con una leggera diminuzione della fedeltà (da 0,260 a 0,212). L'analisi della difficoltà dei problemi rivela che GPT-5.2 risolve l'82% dei problemi difficili mentre sbaglia solo il 13% di quelli facili. Claude, al contrario, sbaglia il 23% dei problemi facili, spiegando così la sua diminuzione di accuratezza. Questi risultati sono importanti per i professionisti: l'autoconsistenza non è universalmente benefica e i team dovrebbero testare i propri modelli specifici prima del dispiegamento. Rilasciamo il nostro codice e forniamo raccomandazioni pratiche per orientarsi in questi compromessi.

English

Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.

Lo Scaling dell'Inferenza Migliora la Fedeltà del Ragionamento? Un'Analisi Multi-Modello sui Compromessi dell'Auto-Consistenza

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

Abstract

Support