Verbessert Inference Scaling die Zuverlässigkeit des Schließens? Eine Multi-Modell-Analyse von Trade-offs bei der Selbstkonsistenz

papers.abstract

Selbstkonsistenz hat sich als beliebte Technik zur Verbesserung der Genauigkeit großer Sprachmodelle bei Reasoning-Aufgaben etabliert. Der Ansatz ist einfach: Es werden mehrere Reasoning-Pfade generiert und die häufigste Antwort durch Mehrheitsabstimmung ausgewählt. Obwohl dies die Genauigkeit zuverlässig steigert, bleibt unklar, ob diese Gewinne echte Verbesserungen der Reasoning-Qualität widerspiegeln. Wir untersuchen eine grundlegende Frage, die bisher nicht erforscht wurde: Verbessert die Skalierung des Inferenzprozesses die Zuverlässigkeit des Reasonings? Wir führen eine umfassende empirische Studie mit vier führenden Modellen (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview und DeepSeek-v3.2) an 100 mathematischen Reasoning-Problemen aus GSM8K durch. Unsere Analyse verwendet Bootstrap-Konfidenzintervalle, McNemar-Tests für gepaarte Vergleiche und Cohen's d-Effektstärken, um die Effekte rigoros zu quantifizieren. Die Ergebnisse zeigen auffällige Unterschiede zwischen den Modellen, die gängige Annahmen über Selbstkonsistenz infrage stellen. GPT-5.2 zeigt das erwartete Muster: Die Genauigkeit verbessert sich von 78 % auf 90 % bei N=5, während die Zuverlässigkeit relativ stabil bleibt (0,540 zu 0,510). Claude Opus 4.5 zeigt ein völlig anderes Bild. Seine Genauigkeit sinkt tatsächlich von 78 % auf 74,3 %, während die Zuverlässigkeit bei N=5 dramatisch von 0,270 auf 0,891 ansteigt. DeepSeek-v3.2, das bereits bei 98 % Genauigkeit liegt, zeigt Deckeneffekte mit moderaten Zuverlässigkeitsgewinnen (0,440 zu 0,541). Gemini-3-flash verbessert sich von 81 % auf 86 % Genauigkeit bei einem leichten Rückgang der Zuverlässigkeit (0,260 zu 0,212). Eine Analyse der Problem-Schwierigkeit zeigt, dass GPT-5.2 82 % der schwierigen Probleme löst, während es nur bei 13 % der einfachen Probleme versagt. Claude hingegen versagt bei 23 % der einfachen Probleme, was seinen Genauigkeitsrückgang erklärt. Diese Erkenntnisse sind für Praktiker relevant: Selbstkonsistenz ist nicht universell vorteilhaft, und Teams sollten ihre spezifischen Modelle vor dem Einsatz testen. Wir veröffentlichen unseren Code und geben praktische Empfehlungen für den Umgang mit diesen Zielkonflikten.

English

Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.

Verbessert Inference Scaling die Zuverlässigkeit des Schließens? Eine Multi-Modell-Analyse von Trade-offs bei der Selbstkonsistenz

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

papers.abstract

Support