Um Estudo Teórico sobre a Conexão entre Probabilidade Interna e Autoconsistência no Raciocínio de Modelos de Linguagem de Grande Escala
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
October 17, 2025
Autores: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
cs.AI
Resumo
A escalonamento em tempo de teste busca melhorar o desempenho de raciocínio de modelos de linguagem de grande escala (LLMs) ao adicionar recursos computacionais. Uma abordagem prevalente no campo são os métodos de escalonamento em tempo de teste baseados em amostragem, que aprimoram o raciocínio ao gerar múltiplos caminhos de raciocínio para uma determinada entrada durante a inferência. No entanto, apesar de seu sucesso prático, os fundamentos teóricos permanecem pouco explorados. Neste artigo, fornecemos a primeira estrutura teórica para analisar métodos de escalonamento em tempo de teste baseados em amostragem, fundamentada na perspectiva de estimativa de confiança. Com base nessa estrutura, analisamos dois paradigmas dominantes: autoconsistência e perplexidade, e revelamos limitações-chave: a autoconsistência sofre com alto erro de estimativa, enquanto a perplexidade exibe erro de modelagem substancial e possível degradação da convergência do erro de estimativa. Para abordar essas limitações, introduzimos o RPC, um método híbrido que aproveita nossas percepções teóricas por meio de dois componentes principais: Consistência de Perplexidade e Poda de Raciocínio. A Consistência de Perplexidade combina os pontos fortes da autoconsistência e da perplexidade, impulsionando a taxa de convergência do erro de estimativa de linear para exponencial, enquanto preserva o erro do modelo. A Poda de Raciocínio previne a degradação ao eliminar caminhos de raciocínio de baixa probabilidade. Tanto a análise teórica quanto os resultados empíricos em sete conjuntos de dados de referência demonstram que o RPC tem um forte potencial para reduzir o erro de raciocínio. Notavelmente, o RPC alcança desempenho de raciocínio comparável à autoconsistência, não apenas aprimorando a confiabilidade da confiança, mas também reduzindo os custos de amostragem em 50%. O código e os recursos estão disponíveis em https://wnjxyk.github.io/RPC.
English
Test-time scaling seeks to improve the reasoning performance of large
language models (LLMs) by adding computational resources. A prevalent approach
within the field is sampling-based test-time scaling methods, which enhance
reasoning by generating multiple reasoning paths for a given input during
inference. However, despite its practical success, the theoretical foundations
remain underexplored. In this paper, we provide the first theoretical framework
for analyzing sampling-based test-time scaling methods, grounded in the
perspective of confidence estimation. Based on the framework, we analyze two
dominant paradigms: self-consistency and perplexity, and reveal key
limitations: self-consistency suffers from high estimation error while
perplexity exhibits substantial modeling error and possible degradation of the
estimation error convergence. To address these limitations, we introduce RPC, a
hybrid method that leverages our theoretical insights through two key
components: Perplexity Consistency and Reasoning Pruning. Perplexity
Consistency combines the strengths of self-consistency and perplexity, boosting
the convergence rate of estimation error from linear to exponential while
preserving model error. Reasoning Pruning prevents degradation by eliminating
low-probability reasoning paths. Both theoretical analysis and empirical
results across seven benchmark datasets demonstrate that RPC has a strong
potential for reducing reasoning error. Notably, RPC achieves reasoning
performance comparable to self-consistency while not only enhancing confidence
reliability but also reducing sampling costs by 50%. The code and resources are
available at https://wnjxyk.github.io/RPC.