Een Theoretische Studie over het Overbruggen van Interne Waarschijnlijkheid en Zelfconsistentie voor Redeneren met Grote Taalmodellen

Samenvatting

Test-time scaling streeft ernaar de redeneerprestaties van grote taalmmodellen (LLMs) te verbeteren door extra rekenbronnen toe te voegen. Een veelgebruikte aanpak binnen het veld is sampling-gebaseerde test-time scaling methoden, die het redeneren verbeteren door meerdere redeneerpaden te genereren voor een gegeven invoer tijdens inferentie. Ondanks het praktische succes blijven de theoretische fundamenten echter onderbelicht. In dit artikel bieden we het eerste theoretische kader voor het analyseren van sampling-gebaseerde test-time scaling methoden, gebaseerd op het perspectief van betrouwbaarheidsschatting. Op basis van dit kader analyseren we twee dominante paradigma's: zelfconsistentie en perplexiteit, en onthullen we belangrijke beperkingen: zelfconsistentie lijdt onder een hoge schattingsfout, terwijl perplexiteit aanzienlijke modelleerfouten vertoont en mogelijke verslechtering van de convergentie van de schattingsfout. Om deze beperkingen aan te pakken, introduceren we RPC, een hybride methode die gebruikmaakt van onze theoretische inzichten via twee belangrijke componenten: Perplexiteitsconsistentie en Redeneersnoei. Perplexiteitsconsistentie combineert de sterke punten van zelfconsistentie en perplexiteit, waardoor de convergentiesnelheid van de schattingsfout wordt verhoogd van lineair naar exponentieel, terwijl de modelfout behouden blijft. Redeneersnoei voorkomt verslechtering door redeneerpaden met een lage waarschijnlijkheid te elimineren. Zowel theoretische analyse als empirische resultaten over zeven benchmarkdatasets tonen aan dat RPC een sterk potentieel heeft om redeneerfouten te verminderen. Opmerkelijk is dat RPC redeneerprestaties bereikt die vergelijkbaar zijn met zelfconsistentie, terwijl niet alleen de betrouwbaarheid van de betrouwbaarheidsschatting wordt verbeterd, maar ook de samplingkosten met 50% worden verlaagd. De code en bronnen zijn beschikbaar op https://wnjxyk.github.io/RPC.

English

Test-time scaling seeks to improve the reasoning performance of large language models (LLMs) by adding computational resources. A prevalent approach within the field is sampling-based test-time scaling methods, which enhance reasoning by generating multiple reasoning paths for a given input during inference. However, despite its practical success, the theoretical foundations remain underexplored. In this paper, we provide the first theoretical framework for analyzing sampling-based test-time scaling methods, grounded in the perspective of confidence estimation. Based on the framework, we analyze two dominant paradigms: self-consistency and perplexity, and reveal key limitations: self-consistency suffers from high estimation error while perplexity exhibits substantial modeling error and possible degradation of the estimation error convergence. To address these limitations, we introduce RPC, a hybrid method that leverages our theoretical insights through two key components: Perplexity Consistency and Reasoning Pruning. Perplexity Consistency combines the strengths of self-consistency and perplexity, boosting the convergence rate of estimation error from linear to exponential while preserving model error. Reasoning Pruning prevents degradation by eliminating low-probability reasoning paths. Both theoretical analysis and empirical results across seven benchmark datasets demonstrate that RPC has a strong potential for reducing reasoning error. Notably, RPC achieves reasoning performance comparable to self-consistency while not only enhancing confidence reliability but also reducing sampling costs by 50%. The code and resources are available at https://wnjxyk.github.io/RPC.

Een Theoretische Studie over het Overbruggen van Interne Waarschijnlijkheid en Zelfconsistentie voor Redeneren met Grote Taalmodellen

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

Samenvatting

Support