A Escala de Inferência Melhora a Fidelidade do Raciocínio? Uma Análise Multi-Modelo das Compensações da Autoconsistência

Resumo

A auto-consistência emergiu como uma técnica popular para melhorar a precisão de modelos de linguagem grandes em tarefas de raciocínio. A abordagem é simples: gerar múltiplos caminhos de raciocínio e selecionar a resposta mais comum através de votação majoritária. Embora isso aumente a precisão de forma confiável, permanece incerto se esses ganhos refletem melhorias genuínas na qualidade do raciocínio. Investigamos uma questão fundamental que não foi estudada anteriormente: a escala de inferência melhora a fidedignidade do raciocínio? Conduzimos um estudo empírico abrangente em quatro modelos de fronteira (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview e DeepSeek-v3.2) em 100 problemas de raciocínio matemático do GSM8K. Nossa análise emprega intervalos de confiança bootstrap, testes de McNemar para comparações pareadas e tamanhos de efeito d de Cohen para quantificar os efeitos de forma rigorosa. Os resultados revelam diferenças marcantes entre os modelos que desafiam pressupostos comuns sobre a auto-consistência. O GPT-5.2 mostra o padrão esperado: a precisão melhora de 78% para 90% em N=5, com a fidedignidade permanecendo relativamente estável (0,540 para 0,510). O Claude Opus 4.5 conta uma história completamente diferente. Sua precisão realmente cai de 78% para 74,3%, enquanto a fidedignidade aumenta drasticamente de 0,270 para 0,891 em N=5. O DeepSeek-v3.2, já com 98% de precisão, mostra efeitos de teto com ganhos modestos de fidedignidade (0,440 para 0,541). O Gemini-3-flash melhora de 81% para 86% em precisão com uma ligeira diminuição na fidedignidade (0,260 para 0,212). A análise da dificuldade dos problemas revela que o GPT-5.2 resolve 82% dos problemas difíceis, enquanto quebra apenas 13% dos problemas fáceis. O Claude, em contraste, quebra 23% dos problemas fáceis, explicando sua diminuição de precisão. Essas descobertas são importantes para profissionais: a auto-consistência não é universalmente benéfica, e as equipes devem testar seus modelos específicos antes da implantação. Disponibilizamos nosso código e fornecemos recomendações práticas para navegar nessas compensações.

English

Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.

A Escala de Inferência Melhora a Fidelidade do Raciocínio? Uma Análise Multi-Modelo das Compensações da Autoconsistência

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

Resumo

Support