ChatPaper.aiChatPaper

추론 규모 확대가 추론의 신뢰성을 향상시키는가? 자기 일관성 트레이드오프에 대한 다중 모델 분석

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

January 10, 2026
저자: Deep Mehta
cs.AI

초록

자기 일관성(self-consistency)은 추론 과제에서 대규모 언어 모델의 정확도를 향상시키기 위한 인기 있는 기술로 부상했습니다. 이 접근법은 간단합니다. 여러 추론 경로를 생성하고 다수결을 통해 가장 흔한 답을 선택하는 것입니다. 이 방법이 정확도를 안정적으로 높이기는 하지만, 이러한 향상이 진정한 추론 품질의 개선을 반영하는지는 여전히 불분명합니다. 우리는 이전에 연구된 적 없는 근본적인 질문을 조사합니다. 추론 규모 확장이 추론의 신뢰성(faithfulness)을 향상시키는가? 우리는 100개의 GSM8K 수학적 추론 문제에 대해 4개의 최첨단 모델(GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, DeepSeek-v3.2)을 대상으로 포괄적인 실증 연구를 수행했습니다. 우리의 분석은 부트스트랩 신뢰 구간, 짝지은 비교를 위한 McNemar 검정, Cohen의 d 효과 크기를 활용하여 효과를 엄격하게 정량화합니다. 결과는 자기 일관성에 대한 일반적인 가정에 의문을 제기하는 현저한 모델 간 차이를 보여줍니다. GPT-5.2는 예상된 패턴을 보입니다: N=5에서 정확도가 78%에서 90%로 향상되며 신뢰성은 상대적으로 안정적으로 유지됩니다(0.540에서 0.510). Claude Opus 4.5는 완전히 다른 이야기를 보여줍니다. 정확도는 실제로 78%에서 74.3%로 떨어지는 반면, N=5에서 신뢰성은 0.270에서 0.891로 극적으로 급증합니다. 이미 98%의 정확도를 보이는 DeepSeek-v3.2는 천장 효과를 보이며 신뢰성은 약간 향상됩니다(0.440에서 0.541). Gemini-3-flash는 정확도가 81%에서 86%로 향상되지만 신뢰성은 약간 감소합니다(0.260에서 0.212). 문제 난이도 분석에 따르면, GPT-5.2는 어려운 문제의 82%를 해결하는 반면 쉬운 문제는 13%만 실패합니다. 이와 대조적으로 Claude는 쉬운 문제의 23%를 실패하며, 이는 정확도 감소를 설명합니다. 이러한 발견은 실무자에게 중요합니다. 자기 일관성은 보편적으로 유익한 것이 아니며, 팀은 배포 전에 특정 모델을 테스트해야 합니다. 우리는 코드를 공개하고 이러한 절충점을 탐색하기 위한 실용적인 권장 사항을 제공합니다.
English
Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.
PDF22January 31, 2026