Een Theoretische Studie over het Overbruggen van Interne Waarschijnlijkheid en Zelfconsistentie voor Redeneren met Grote Taalmodellen
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
October 17, 2025
Auteurs: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
cs.AI
Samenvatting
Test-time scaling streeft ernaar de redeneerprestaties van grote taalmmodellen (LLMs) te verbeteren door extra rekenbronnen toe te voegen. Een veelgebruikte aanpak binnen het veld is sampling-gebaseerde test-time scaling methoden, die het redeneren verbeteren door meerdere redeneerpaden te genereren voor een gegeven invoer tijdens inferentie. Ondanks het praktische succes blijven de theoretische fundamenten echter onderbelicht. In dit artikel bieden we het eerste theoretische kader voor het analyseren van sampling-gebaseerde test-time scaling methoden, gebaseerd op het perspectief van betrouwbaarheidsschatting. Op basis van dit kader analyseren we twee dominante paradigma's: zelfconsistentie en perplexiteit, en onthullen we belangrijke beperkingen: zelfconsistentie lijdt onder een hoge schattingsfout, terwijl perplexiteit aanzienlijke modelleerfouten vertoont en mogelijke verslechtering van de convergentie van de schattingsfout. Om deze beperkingen aan te pakken, introduceren we RPC, een hybride methode die gebruikmaakt van onze theoretische inzichten via twee belangrijke componenten: Perplexiteitsconsistentie en Redeneersnoei. Perplexiteitsconsistentie combineert de sterke punten van zelfconsistentie en perplexiteit, waardoor de convergentiesnelheid van de schattingsfout wordt verhoogd van lineair naar exponentieel, terwijl de modelfout behouden blijft. Redeneersnoei voorkomt verslechtering door redeneerpaden met een lage waarschijnlijkheid te elimineren. Zowel theoretische analyse als empirische resultaten over zeven benchmarkdatasets tonen aan dat RPC een sterk potentieel heeft om redeneerfouten te verminderen. Opmerkelijk is dat RPC redeneerprestaties bereikt die vergelijkbaar zijn met zelfconsistentie, terwijl niet alleen de betrouwbaarheid van de betrouwbaarheidsschatting wordt verbeterd, maar ook de samplingkosten met 50% worden verlaagd. De code en bronnen zijn beschikbaar op https://wnjxyk.github.io/RPC.
English
Test-time scaling seeks to improve the reasoning performance of large
language models (LLMs) by adding computational resources. A prevalent approach
within the field is sampling-based test-time scaling methods, which enhance
reasoning by generating multiple reasoning paths for a given input during
inference. However, despite its practical success, the theoretical foundations
remain underexplored. In this paper, we provide the first theoretical framework
for analyzing sampling-based test-time scaling methods, grounded in the
perspective of confidence estimation. Based on the framework, we analyze two
dominant paradigms: self-consistency and perplexity, and reveal key
limitations: self-consistency suffers from high estimation error while
perplexity exhibits substantial modeling error and possible degradation of the
estimation error convergence. To address these limitations, we introduce RPC, a
hybrid method that leverages our theoretical insights through two key
components: Perplexity Consistency and Reasoning Pruning. Perplexity
Consistency combines the strengths of self-consistency and perplexity, boosting
the convergence rate of estimation error from linear to exponential while
preserving model error. Reasoning Pruning prevents degradation by eliminating
low-probability reasoning paths. Both theoretical analysis and empirical
results across seven benchmark datasets demonstrate that RPC has a strong
potential for reducing reasoning error. Notably, RPC achieves reasoning
performance comparable to self-consistency while not only enhancing confidence
reliability but also reducing sampling costs by 50%. The code and resources are
available at https://wnjxyk.github.io/RPC.