Улучшает ли масштабирование вывода достоверность рассуждений? Многомодельный анализ компромиссов самосогласованности

Аннотация

Метод самосогласованности стал популярным подходом для повышения точности больших языковых моделей в задачах логического вывода. Его суть проста: сгенерировать несколько цепочек рассуждений и выбрать наиболее частый ответ путем мажоритарного голосования. Хотя этот метод надежно повышает точность, остается неясным, отражают ли эти улучшения подлинный рост качества рассуждений. Мы исследуем фундаментальный вопрос, который ранее не изучался: улучшает ли масштабирование вывода достоверность рассуждений? Мы провели всестороннее эмпирическое исследование на четырех передовых моделях (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview и DeepSeek-v3.2) с использованием 100 математических задач из набора GSM8K. Наш анализ включает bootstrap-доверительные интервалы, тесты Макнемара для парных сравнений и размеры эффекта Коэна для строгой количественной оценки результатов. Полученные данные выявляют поразительные различия между моделями, которые ставят под сомнение общепринятые представления о самосогласованности. GPT-5.2 демонстрирует ожидаемую закономерность: точность повышается с 78% до 90% при N=5, в то время как достоверность остается относительно стабильной (0.540 до 0.510). Claude Opus 4.5 показывает совершенно иную картину: его точность фактически снижается с 78% до 74.3%, тогда как достоверность резко возрастает с 0.270 до 0.891 при N=5. DeepSeek-v3.2, уже имеющая точность 98%, демонстрирует эффект потолка с умеренным ростом достоверности (0.440 до 0.541). Gemini-3-flash улучшает точность с 81% до 86% при незначительном снижении достоверности (0.260 до 0.212). Анализ сложности задач показывает, что GPT-5.2 решает 82% сложных задач, допуская ошибки лишь в 13% простых. В отличие от этого, Claude ошибается в 23% простых задач, что объясняет снижение его точности. Эти результаты важны для практиков: самосогласованность не является универсально полезной, и командам следует тестировать свои конкретные модели перед внедрением. Мы публикуем наш код и даем практические рекомендации по работе с выявленными компромиссами.

English

Self-consistency has emerged as a popular technique for improving large language model accuracy on reasoning tasks. The approach is straightforward: generate multiple reasoning paths and select the most common answer through majority voting. While this reliably boosts accuracy, it remains unclear whether these gains reflect genuine improvements in reasoning quality. We investigate a fundamental question that has not been studied before: does inference scaling improve reasoning faithfulness? We conduct a comprehensive empirical study across four frontier models (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview, and DeepSeek-v3.2) on 100 GSM8K mathematical reasoning problems. Our analysis employs bootstrap confidence intervals, McNemar's tests for paired comparisons, and Cohen's d effect sizes to quantify the effects rigorously. The results reveal striking differences across models that challenge common assumptions about self-consistency. GPT-5.2 shows the expected pattern: accuracy improves from 78% to 90% at N=5, with faithfulness remaining relatively stable (0.540 to 0.510). Claude Opus 4.5 tells a completely different story. Its accuracy actually drops from 78% to 74.3% while faithfulness jumps dramatically from 0.270 to 0.891 at N=5. DeepSeek-v3.2, already at 98% accuracy, shows ceiling effects with modest faithfulness gains (0.440 to 0.541). Gemini-3-flash improves from 81% to 86% accuracy with a slight faithfulness decrease (0.260 to 0.212). Problem difficulty analysis reveals that GPT-5.2 solves 82% of hard problems while breaking only 13% of easy ones. Claude, in contrast, breaks 23% of easy problems, explaining its accuracy decrease. These findings matter for practitioners: self-consistency is not universally beneficial, and teams should test their specific models before deployment. We release our code and provide practical recommendations for navigating these tradeoffs.

Улучшает ли масштабирование вывода достоверность рассуждений? Многомодельный анализ компромиссов самосогласованности

Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

Аннотация

Support