ChatPaper.aiChatPaper

Um Estudo Teórico sobre a Conexão entre Probabilidade Interna e Autoconsistência no Raciocínio de Modelos de Linguagem de Grande Escala

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

October 17, 2025
Autores: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
cs.AI

Resumo

A escalonamento em tempo de teste busca melhorar o desempenho de raciocínio de modelos de linguagem de grande escala (LLMs) ao adicionar recursos computacionais. Uma abordagem prevalente no campo são os métodos de escalonamento em tempo de teste baseados em amostragem, que aprimoram o raciocínio ao gerar múltiplos caminhos de raciocínio para uma determinada entrada durante a inferência. No entanto, apesar de seu sucesso prático, os fundamentos teóricos permanecem pouco explorados. Neste artigo, fornecemos a primeira estrutura teórica para analisar métodos de escalonamento em tempo de teste baseados em amostragem, fundamentada na perspectiva de estimativa de confiança. Com base nessa estrutura, analisamos dois paradigmas dominantes: autoconsistência e perplexidade, e revelamos limitações-chave: a autoconsistência sofre com alto erro de estimativa, enquanto a perplexidade exibe erro de modelagem substancial e possível degradação da convergência do erro de estimativa. Para abordar essas limitações, introduzimos o RPC, um método híbrido que aproveita nossas percepções teóricas por meio de dois componentes principais: Consistência de Perplexidade e Poda de Raciocínio. A Consistência de Perplexidade combina os pontos fortes da autoconsistência e da perplexidade, impulsionando a taxa de convergência do erro de estimativa de linear para exponencial, enquanto preserva o erro do modelo. A Poda de Raciocínio previne a degradação ao eliminar caminhos de raciocínio de baixa probabilidade. Tanto a análise teórica quanto os resultados empíricos em sete conjuntos de dados de referência demonstram que o RPC tem um forte potencial para reduzir o erro de raciocínio. Notavelmente, o RPC alcança desempenho de raciocínio comparável à autoconsistência, não apenas aprimorando a confiabilidade da confiança, mas também reduzindo os custos de amostragem em 50%. O código e os recursos estão disponíveis em https://wnjxyk.github.io/RPC.
English
Test-time scaling seeks to improve the reasoning performance of large language models (LLMs) by adding computational resources. A prevalent approach within the field is sampling-based test-time scaling methods, which enhance reasoning by generating multiple reasoning paths for a given input during inference. However, despite its practical success, the theoretical foundations remain underexplored. In this paper, we provide the first theoretical framework for analyzing sampling-based test-time scaling methods, grounded in the perspective of confidence estimation. Based on the framework, we analyze two dominant paradigms: self-consistency and perplexity, and reveal key limitations: self-consistency suffers from high estimation error while perplexity exhibits substantial modeling error and possible degradation of the estimation error convergence. To address these limitations, we introduce RPC, a hybrid method that leverages our theoretical insights through two key components: Perplexity Consistency and Reasoning Pruning. Perplexity Consistency combines the strengths of self-consistency and perplexity, boosting the convergence rate of estimation error from linear to exponential while preserving model error. Reasoning Pruning prevents degradation by eliminating low-probability reasoning paths. Both theoretical analysis and empirical results across seven benchmark datasets demonstrate that RPC has a strong potential for reducing reasoning error. Notably, RPC achieves reasoning performance comparable to self-consistency while not only enhancing confidence reliability but also reducing sampling costs by 50%. The code and resources are available at https://wnjxyk.github.io/RPC.
PDF1316October 20, 2025