Eine theoretische Studie zur Verbindung interner Wahrscheinlichkeit und Selbstkonsistenz für das Reasoning von LLMs
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
October 17, 2025
papers.authors: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
cs.AI
papers.abstract
Test-Time-Scaling zielt darauf ab, die Schlussfolgerungsleistung großer Sprachmodelle (LLMs) durch die Hinzufügung von Rechenressourcen zu verbessern. Ein verbreiteter Ansatz in diesem Bereich sind sampling-basierte Test-Time-Scaling-Methoden, die die Schlussfolgerungsfähigkeit verbessern, indem sie während der Inferenz mehrere Schlussfolgerungspfade für eine gegebene Eingabe generieren. Trotz des praktischen Erfolgs dieser Methoden bleiben die theoretischen Grundlagen jedoch weitgehend unerforscht. In diesem Artikel stellen wir den ersten theoretischen Rahmen zur Analyse von sampling-basierten Test-Time-Scaling-Methoden vor, der auf der Perspektive der Konfidenzschätzung basiert. Auf Grundlage dieses Rahmens analysieren wir zwei dominante Paradigmen: Selbstkonsistenz und Perplexität, und decken wesentliche Einschränkungen auf: Selbstkonsistenz leidet unter einem hohen Schätzfehler, während Perplexität erhebliche Modellierungsfehler aufweist und möglicherweise die Konvergenz des Schätzfehlers verschlechtert. Um diese Einschränkungen zu überwinden, führen wir RPC ein, eine hybride Methode, die unsere theoretischen Erkenntnisse durch zwei Schlüsselkomponenten nutzt: Perplexity Consistency und Reasoning Pruning. Perplexity Consistency kombiniert die Stärken von Selbstkonsistenz und Perplexität, beschleunigt die Konvergenzrate des Schätzfehlers von linear auf exponentiell und bewahrt dabei den Modellfehler. Reasoning Pruning verhindert eine Verschlechterung, indem es unwahrscheinliche Schlussfolgerungspfage eliminiert. Sowohl theoretische Analysen als auch empirische Ergebnisse über sieben Benchmark-Datensätze zeigen, dass RPC ein großes Potenzial zur Reduzierung von Schlussfolgerungsfehlern besitzt. Bemerkenswerterweise erreicht RPC eine vergleichbare Schlussfolgerungsleistung wie Selbstkonsistenz, verbessert jedoch nicht nur die Zuverlässigkeit der Konfidenz, sondern reduziert auch die Sampling-Kosten um 50%. Der Code und die Ressourcen sind unter https://wnjxyk.github.io/RPC verfügbar.
English
Test-time scaling seeks to improve the reasoning performance of large
language models (LLMs) by adding computational resources. A prevalent approach
within the field is sampling-based test-time scaling methods, which enhance
reasoning by generating multiple reasoning paths for a given input during
inference. However, despite its practical success, the theoretical foundations
remain underexplored. In this paper, we provide the first theoretical framework
for analyzing sampling-based test-time scaling methods, grounded in the
perspective of confidence estimation. Based on the framework, we analyze two
dominant paradigms: self-consistency and perplexity, and reveal key
limitations: self-consistency suffers from high estimation error while
perplexity exhibits substantial modeling error and possible degradation of the
estimation error convergence. To address these limitations, we introduce RPC, a
hybrid method that leverages our theoretical insights through two key
components: Perplexity Consistency and Reasoning Pruning. Perplexity
Consistency combines the strengths of self-consistency and perplexity, boosting
the convergence rate of estimation error from linear to exponential while
preserving model error. Reasoning Pruning prevents degradation by eliminating
low-probability reasoning paths. Both theoretical analysis and empirical
results across seven benchmark datasets demonstrate that RPC has a strong
potential for reducing reasoning error. Notably, RPC achieves reasoning
performance comparable to self-consistency while not only enhancing confidence
reliability but also reducing sampling costs by 50%. The code and resources are
available at https://wnjxyk.github.io/RPC.