Теоретическое исследование связи внутренней вероятности и самосогласованности в рассуждениях языковых моделей
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
October 17, 2025
Авторы: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
cs.AI
Аннотация
Масштабирование во время тестирования направлено на улучшение способности к рассуждению больших языковых моделей (LLM) за счет добавления вычислительных ресурсов. Распространенным подходом в этой области являются методы масштабирования во время тестирования, основанные на выборке, которые улучшают рассуждение путем генерации нескольких путей рассуждения для заданного входного данных во время вывода. Однако, несмотря на практический успех, теоретические основы остаются недостаточно изученными. В данной работе мы предлагаем первую теоретическую основу для анализа методов масштабирования во время тестирования, основанных на выборке, с точки зрения оценки уверенности. На основе этой основы мы анализируем две доминирующие парадигмы: самосогласованность и перплексию, и выявляем ключевые ограничения: самосогласованность страдает от высокой ошибки оценки, в то время как перплексия демонстрирует значительную ошибку моделирования и возможное ухудшение сходимости ошибки оценки. Для устранения этих ограничений мы представляем RPC, гибридный метод, который использует наши теоретические инсайты через два ключевых компонента: Согласованность Перплексии и Обрезку Рассуждений. Согласованность Перплексии объединяет преимущества самосогласованности и перплексии, ускоряя скорость сходимости ошибки оценки с линейной до экспоненциальной, сохраняя при этом ошибку модели. Обрезка Рассуждений предотвращает ухудшение, устраняя пути рассуждения с низкой вероятностью. Как теоретический анализ, так и эмпирические результаты на семи эталонных наборах данных демонстрируют, что RPC обладает значительным потенциалом для снижения ошибки рассуждения. Примечательно, что RPC достигает производительности рассуждения, сравнимой с самосогласованностью, не только повышая надежность уверенности, но и снижая затраты на выборку на 50%. Код и ресурсы доступны по адресу https://wnjxyk.github.io/RPC.
English
Test-time scaling seeks to improve the reasoning performance of large
language models (LLMs) by adding computational resources. A prevalent approach
within the field is sampling-based test-time scaling methods, which enhance
reasoning by generating multiple reasoning paths for a given input during
inference. However, despite its practical success, the theoretical foundations
remain underexplored. In this paper, we provide the first theoretical framework
for analyzing sampling-based test-time scaling methods, grounded in the
perspective of confidence estimation. Based on the framework, we analyze two
dominant paradigms: self-consistency and perplexity, and reveal key
limitations: self-consistency suffers from high estimation error while
perplexity exhibits substantial modeling error and possible degradation of the
estimation error convergence. To address these limitations, we introduce RPC, a
hybrid method that leverages our theoretical insights through two key
components: Perplexity Consistency and Reasoning Pruning. Perplexity
Consistency combines the strengths of self-consistency and perplexity, boosting
the convergence rate of estimation error from linear to exponential while
preserving model error. Reasoning Pruning prevents degradation by eliminating
low-probability reasoning paths. Both theoretical analysis and empirical
results across seven benchmark datasets demonstrate that RPC has a strong
potential for reducing reasoning error. Notably, RPC achieves reasoning
performance comparable to self-consistency while not only enhancing confidence
reliability but also reducing sampling costs by 50%. The code and resources are
available at https://wnjxyk.github.io/RPC.