Verbeteren Inference Scaling de Redeneergetrouwheid? Een Multi-Model Analyse van Zelfconsistentie-Afwegingen

Samenvatting

Zelfconsistentie is naar voren gekomen als een populaire techniek om de nauwkeurigheid van grote taalmodel(len) bij redeneertaken te verbeteren. De aanpak is eenvoudig: genereer meerdere redeneerpaden en selecteer het meest voorkomende antwoord via meerderheidsstemming. Hoewel dit de nauwkeurigheid betrouwbaar verhoogt, is het onduidelijk of deze winst echte verbeteringen in de redeneerkwaliteit weerspiegelt. Wij onderzoeken een fundamentele vraag die nog niet eerder is bestudeerd: verbetert schaling tijdens de inferentie de betrouwbaarheid van het redeneren? Wij voeren een uitgebreide empirische studie uit met vier vooraanstaande modellen (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview en DeepSeek-v3.2) op 100 wiskundige redeneerproblemen van GSM8K. Onze analyse maakt gebruik van bootstrap-betrouwbaarheidsintervallen, McNemar's tests voor gepaarde vergelijkingen en Cohen's d-effectgroottes om de effecten rigoureus te kwantificeren. De resultaten onthullen opvallende verschillen tussen modellen die gangbare veronderstellingen over zelfconsistentie uitdagen. GPT-5.2 vertoont het verwachte patroon: de nauwkeurigheid verbetert van 78% naar 90% bij N=5, terwijl de betrouwbaarheid relatief stabiel blijft (0,540 tot 0,510). Claude Opus 4.5 vertelt een heel ander verhaal. De nauwkeurigheid daalt zelfs van 78% naar 74,3%, terwijl de betrouwbaarheid dramatisch stijgt van 0,270 naar 0,891 bij N=5. DeepSeek-v3.2, dat al op 98% nauwkeurigheid zit, vertoont plafondeffecten met bescheiden winst in betrouwbaarheid (0,440 tot 0,541). Gemini-3-flash verbetert van 81% naar 86% nauwkeurigheid met een lichte daling in betrouwbaarheid (0,260 naar 0,212). Analyse van probleemmoeilijkheid onthult dat GPT-5.2 82% van de moeilijke problemen oplost, terwijl het slechts 13% van de eenvoudige problemen fout behandelt. Claude daarentegen behandelt 23% van de eenvoudige problemen fout, wat de daling in nauwkeurigheid verklaart. Deze bevindingen zijn belangrijk voor praktijkmensen: zelfconsistentie is niet universeel gunstig, en teams moeten hun specifieke modellen testen vóór implementatie. Wij geven onze code vrij en bieden praktische aanbevelingen voor het navigeren door deze afwegingen.

English

Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.

Verbeteren Inference Scaling de Redeneergetrouwheid? Een Multi-Model Analyse van Zelfconsistentie-Afwegingen

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

Samenvatting

Support