Une étude théorique sur le pont entre la probabilité interne et l'auto-cohérence pour le raisonnement des grands modèles de langage

papers.abstract

La mise à l'échelle au moment du test vise à améliorer les performances de raisonnement des grands modèles de langage (LLM) en ajoutant des ressources de calcul. Une approche prédominante dans ce domaine est celle des méthodes de mise à l'échelle au moment du test basées sur l'échantillonnage, qui améliorent le raisonnement en générant plusieurs chemins de raisonnement pour une entrée donnée lors de l'inférence. Cependant, malgré son succès pratique, les fondements théoriques restent peu explorés. Dans cet article, nous proposons le premier cadre théorique pour analyser les méthodes de mise à l'échelle au moment du test basées sur l'échantillonnage, ancré dans la perspective de l'estimation de la confiance. Sur la base de ce cadre, nous analysons deux paradigmes dominants : l'auto-cohérence et la perplexité, et révélons des limitations clés : l'auto-cohérence souffre d'une erreur d'estimation élevée, tandis que la perplexité présente une erreur de modélisation substantielle et une possible dégradation de la convergence de l'erreur d'estimation. Pour remédier à ces limitations, nous introduisons RPC, une méthode hybride qui exploite nos insights théoriques à travers deux composants clés : la Cohérence de Perplexité et l'Élagage de Raisonnement. La Cohérence de Perplexité combine les forces de l'auto-cohérence et de la perplexité, augmentant le taux de convergence de l'erreur d'estimation de linéaire à exponentiel tout en préservant l'erreur de modèle. L'Élagage de Raisonnement prévient la dégradation en éliminant les chemins de raisonnement à faible probabilité. L'analyse théorique et les résultats empiriques sur sept ensembles de données de référence démontrent que RPC a un fort potentiel pour réduire l'erreur de raisonnement. Notamment, RPC atteint des performances de raisonnement comparables à l'auto-cohérence tout en améliorant non seulement la fiabilité de la confiance, mais aussi en réduisant les coûts d'échantillonnage de 50 %. Le code et les ressources sont disponibles à l'adresse https://wnjxyk.github.io/RPC.

English

Test-time scaling seeks to improve the reasoning performance of large language models (LLMs) by adding computational resources. A prevalent approach within the field is sampling-based test-time scaling methods, which enhance reasoning by generating multiple reasoning paths for a given input during inference. However, despite its practical success, the theoretical foundations remain underexplored. In this paper, we provide the first theoretical framework for analyzing sampling-based test-time scaling methods, grounded in the perspective of confidence estimation. Based on the framework, we analyze two dominant paradigms: self-consistency and perplexity, and reveal key limitations: self-consistency suffers from high estimation error while perplexity exhibits substantial modeling error and possible degradation of the estimation error convergence. To address these limitations, we introduce RPC, a hybrid method that leverages our theoretical insights through two key components: Perplexity Consistency and Reasoning Pruning. Perplexity Consistency combines the strengths of self-consistency and perplexity, boosting the convergence rate of estimation error from linear to exponential while preserving model error. Reasoning Pruning prevents degradation by eliminating low-probability reasoning paths. Both theoretical analysis and empirical results across seven benchmark datasets demonstrate that RPC has a strong potential for reducing reasoning error. Notably, RPC achieves reasoning performance comparable to self-consistency while not only enhancing confidence reliability but also reducing sampling costs by 50%. The code and resources are available at https://wnjxyk.github.io/RPC.

Une étude théorique sur le pont entre la probabilité interne et l'auto-cohérence pour le raisonnement des grands modèles de langage

A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning

papers.abstract

Support