Un Estudio Teórico sobre la Conexión entre Probabilidad Interna y Autoconsistencia en el Razonamiento de Modelos de Lenguaje de Gran Escala
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
October 17, 2025
Autores: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
cs.AI
Resumen
El escalado en tiempo de prueba busca mejorar el rendimiento de razonamiento de los modelos de lenguaje de gran escala (LLMs) mediante la adición de recursos computacionales. Un enfoque prevalente en este campo son los métodos de escalado en tiempo de prueba basados en muestreo, los cuales mejoran el razonamiento generando múltiples trayectorias de razonamiento para una entrada dada durante la inferencia. Sin embargo, a pesar de su éxito práctico, los fundamentos teóricos siguen siendo poco explorados. En este artículo, proporcionamos el primer marco teórico para analizar los métodos de escalado en tiempo de prueba basados en muestreo, fundamentado en la perspectiva de la estimación de confianza. Basándonos en este marco, analizamos dos paradigmas dominantes: la autoconsistencia y la perplejidad, y revelamos limitaciones clave: la autoconsistencia sufre de un alto error de estimación, mientras que la perplejidad exhibe un error de modelado sustancial y una posible degradación de la convergencia del error de estimación. Para abordar estas limitaciones, introducimos RPC, un método híbrido que aprovecha nuestras ideas teóricas a través de dos componentes clave: la Consistencia de Perplejidad y la Poda de Razonamiento. La Consistencia de Perplejidad combina las fortalezas de la autoconsistencia y la perplejidad, aumentando la tasa de convergencia del error de estimación de lineal a exponencial mientras preserva el error del modelo. La Poda de Razonamiento previene la degradación eliminando trayectorias de razonamiento de baja probabilidad. Tanto el análisis teórico como los resultados empíricos en siete conjuntos de datos de referencia demuestran que RPC tiene un fuerte potencial para reducir el error de razonamiento. Notablemente, RPC logra un rendimiento de razonamiento comparable al de la autoconsistencia, no solo mejorando la fiabilidad de la confianza, sino también reduciendo los costos de muestreo en un 50%. El código y los recursos están disponibles en https://wnjxyk.github.io/RPC.
English
Test-time scaling seeks to improve the reasoning performance of large
language models (LLMs) by adding computational resources. A prevalent approach
within the field is sampling-based test-time scaling methods, which enhance
reasoning by generating multiple reasoning paths for a given input during
inference. However, despite its practical success, the theoretical foundations
remain underexplored. In this paper, we provide the first theoretical framework
for analyzing sampling-based test-time scaling methods, grounded in the
perspective of confidence estimation. Based on the framework, we analyze two
dominant paradigms: self-consistency and perplexity, and reveal key
limitations: self-consistency suffers from high estimation error while
perplexity exhibits substantial modeling error and possible degradation of the
estimation error convergence. To address these limitations, we introduce RPC, a
hybrid method that leverages our theoretical insights through two key
components: Perplexity Consistency and Reasoning Pruning. Perplexity
Consistency combines the strengths of self-consistency and perplexity, boosting
the convergence rate of estimation error from linear to exponential while
preserving model error. Reasoning Pruning prevents degradation by eliminating
low-probability reasoning paths. Both theoretical analysis and empirical
results across seven benchmark datasets demonstrate that RPC has a strong
potential for reducing reasoning error. Notably, RPC achieves reasoning
performance comparable to self-consistency while not only enhancing confidence
reliability but also reducing sampling costs by 50%. The code and resources are
available at https://wnjxyk.github.io/RPC.