L'augmentation de l'inférence améliore-t-elle la fidélité du raisonnement ? Une analyse multi-modèles des compromis liés à l'auto-cohérence

papers.abstract

La cohérence interne (self-consistency) est devenue une technique populaire pour améliorer la précision des grands modèles de langage sur les tâches de raisonnement. L'approche est simple : générer plusieurs chemins de raisonnement et sélectionner la réponse la plus fréquente par vote majoritaire. Bien que cette méthode améliore fiabilité la précision, il reste incertain si ces gains reflètent une réelle amélioration de la qualité du raisonnement. Nous étudions une question fondamentale jamais explorée auparavant : la mise à l'échelle par inférence améliore-t-elle la fidélité du raisonnement ? Nous menons une étude empirique complète sur quatre modèles de pointe (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview et DeepSeek-v3.2) à l'aide de 100 problèmes de raisonnement mathématique GSM8K. Notre analyse utilise des intervalles de confiance bootstrap, des tests de McNemar pour les comparaisons appariées et les tailles d'effet de Cohen pour quantifier rigoureusement les effets. Les résultats révèlent des différences frappantes entre les modèles qui remettent en cause les hypothèses courantes sur la cohérence interne. GPT-5.2 montre le schéma attendu : la précision s'améliore de 78 % à 90 % pour N=5, tandis que la fidélité reste relativement stable (0,540 à 0,510). Claude Opus 4.5 présente une histoire complètement différente. Sa précision chute de 78 % à 74,3 % tandis que sa fidélité bondit considérablement de 0,270 à 0,891 pour N=5. DeepSeek-v3.2, déjà à 98 % de précision, montre des effets de plafond avec des gains de fidélité modestes (0,440 à 0,541). Gemini-3-flash s'améliore de 81 % à 86 % en précision avec une légère baisse de fidélité (0,260 à 0,212). L'analyse de la difficulté des problèmes révèle que GPT-5.2 résout 82 % des problèmes difficiles tout en échouant sur seulement 13 % des problèmes faciles. Claude, en revanche, échoue sur 23 % des problèmes faciles, ce qui explique sa baisse de précision. Ces résultats sont importants pour les praticiens : la cohérence interne n'est pas universellement bénéfique, et les équipes doivent tester leurs modèles spécifiques avant le déploiement. Nous publions notre code et fournissons des recommandations pratiques pour naviguer ces compromis.

English

Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.

L'augmentation de l'inférence améliore-t-elle la fidélité du raisonnement ? Une analyse multi-modèles des compromis liés à l'auto-cohérence

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

papers.abstract

Support