Uno Studio Teorico sul Collegamento tra Probabilità Interna e Autoconsistenza nel Ragionamento dei Modelli Linguistici di Grande Dimensione
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
October 17, 2025
Autori: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
cs.AI
Abstract
Il ridimensionamento al momento del test mira a migliorare le prestazioni di ragionamento dei grandi modelli linguistici (LLMs) aggiungendo risorse computazionali. Un approccio prevalente in questo campo è rappresentato dai metodi di ridimensionamento al momento del test basati sul campionamento, che migliorano il ragionamento generando percorsi di ragionamento multipli per un dato input durante l'inferenza. Tuttavia, nonostante il successo pratico, le basi teoriche rimangono poco esplorate. In questo articolo, forniamo il primo quadro teorico per analizzare i metodi di ridimensionamento al momento del test basati sul campionamento, fondato sulla prospettiva della stima della confidenza. Basandoci su questo quadro, analizziamo due paradigmi dominanti: l'autoconsistenza e la perplessità, e riveliamo le principali limitazioni: l'autoconsistenza soffre di un elevato errore di stima, mentre la perplessità presenta un sostanziale errore di modellazione e un possibile degrado della convergenza dell'errore di stima. Per affrontare queste limitazioni, introduciamo RPC, un metodo ibrido che sfrutta le nostre intuizioni teoriche attraverso due componenti chiave: la Consistenza della Perplessità e il Potatura del Ragionamento. La Consistenza della Perplessità combina i punti di forza dell'autoconsistenza e della perplessità, aumentando il tasso di convergenza dell'errore di stima da lineare a esponenziale, preservando l'errore del modello. Il Potatura del Ragionamento previene il degrado eliminando i percorsi di ragionamento a bassa probabilità. Sia l'analisi teorica che i risultati empirici su sette dataset di benchmark dimostrano che RPC ha un forte potenziale per ridurre l'errore di ragionamento. In particolare, RPC raggiunge prestazioni di ragionamento comparabili all'autoconsistenza, non solo migliorando l'affidabilità della confidenza, ma anche riducendo i costi di campionamento del 50%. Il codice e le risorse sono disponibili all'indirizzo https://wnjxyk.github.io/RPC.
English
Test-time scaling seeks to improve the reasoning performance of large
language models (LLMs) by adding computational resources. A prevalent approach
within the field is sampling-based test-time scaling methods, which enhance
reasoning by generating multiple reasoning paths for a given input during
inference. However, despite its practical success, the theoretical foundations
remain underexplored. In this paper, we provide the first theoretical framework
for analyzing sampling-based test-time scaling methods, grounded in the
perspective of confidence estimation. Based on the framework, we analyze two
dominant paradigms: self-consistency and perplexity, and reveal key
limitations: self-consistency suffers from high estimation error while
perplexity exhibits substantial modeling error and possible degradation of the
estimation error convergence. To address these limitations, we introduce RPC, a
hybrid method that leverages our theoretical insights through two key
components: Perplexity Consistency and Reasoning Pruning. Perplexity
Consistency combines the strengths of self-consistency and perplexity, boosting
the convergence rate of estimation error from linear to exponential while
preserving model error. Reasoning Pruning prevents degradation by eliminating
low-probability reasoning paths. Both theoretical analysis and empirical
results across seven benchmark datasets demonstrate that RPC has a strong
potential for reducing reasoning error. Notably, RPC achieves reasoning
performance comparable to self-consistency while not only enhancing confidence
reliability but also reducing sampling costs by 50%. The code and resources are
available at https://wnjxyk.github.io/RPC.