LLM 추론에서 내부 확률과 자기 일관성 간의 연결에 관한 이론적 연구
A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
October 17, 2025
저자: Zhi Zhou, Yuhao Tan, Zenan Li, Yuan Yao, Lan-Zhe Guo, Yu-Feng Li, Xiaoxing Ma
cs.AI
초록
테스트 시간 스케일링은 대규모 언어 모델(LLM)의 추론 성능을 향상시키기 위해 계산 자원을 추가하는 방법을 탐구한다. 이 분야에서 널리 사용되는 접근법은 샘플링 기반 테스트 시간 스케일링 방법으로, 추론 과정에서 주어진 입력에 대해 여러 추론 경로를 생성함으로써 추론 능력을 강화한다. 그러나 이러한 방법이 실질적으로 성공을 거두었음에도 불구하고, 그 이론적 기반은 아직 충분히 탐구되지 않았다. 본 논문에서는 신뢰도 추정 관점에 기반하여 샘플링 기반 테스트 시간 스케일링 방법을 분석하는 첫 이론적 프레임워크를 제시한다. 이 프레임워크를 바탕으로, 우리는 두 가지 주요 패러다임인 자기 일관성(self-consistency)과 복잡도(perplexity)를 분석하고, 이들의 주요 한계를 밝힌다: 자기 일관성은 높은 추정 오차를 겪는 반면, 복잡도는 상당한 모델링 오차와 추정 오차 수렴의 저하 가능성을 보인다. 이러한 한계를 해결하기 위해, 우리는 RPC라는 하이브리드 방법을 소개한다. RPC는 두 가지 핵심 구성 요소인 복잡도 일관성(Perplexity Consistency)과 추론 가지치기(Reasoning Pruning)를 통해 이론적 통찰을 활용한다. 복잡도 일관성은 자기 일관성과 복잡도의 강점을 결합하여 추정 오차의 수렴 속도를 선형에서 지수적으로 향상시키면서 모델 오차를 보존한다. 추론 가지치기는 낮은 확률의 추론 경로를 제거함으로써 저하를 방지한다. 이론적 분석과 7개의 벤치마크 데이터셋에 대한 실험 결과는 RPC가 추론 오차를 줄이는 데 강력한 잠재력을 가지고 있음을 보여준다. 특히, RPC는 자기 일관성과 비슷한 추론 성능을 달성하면서도 신뢰도 신뢰성을 향상시키고 샘플링 비용을 50% 절감한다. 코드와 리소스는 https://wnjxyk.github.io/RPC에서 확인할 수 있다.
English
Test-time scaling seeks to improve the reasoning performance of large
language models (LLMs) by adding computational resources. A prevalent approach
within the field is sampling-based test-time scaling methods, which enhance
reasoning by generating multiple reasoning paths for a given input during
inference. However, despite its practical success, the theoretical foundations
remain underexplored. In this paper, we provide the first theoretical framework
for analyzing sampling-based test-time scaling methods, grounded in the
perspective of confidence estimation. Based on the framework, we analyze two
dominant paradigms: self-consistency and perplexity, and reveal key
limitations: self-consistency suffers from high estimation error while
perplexity exhibits substantial modeling error and possible degradation of the
estimation error convergence. To address these limitations, we introduce RPC, a
hybrid method that leverages our theoretical insights through two key
components: Perplexity Consistency and Reasoning Pruning. Perplexity
Consistency combines the strengths of self-consistency and perplexity, boosting
the convergence rate of estimation error from linear to exponential while
preserving model error. Reasoning Pruning prevents degradation by eliminating
low-probability reasoning paths. Both theoretical analysis and empirical
results across seven benchmark datasets demonstrate that RPC has a strong
potential for reducing reasoning error. Notably, RPC achieves reasoning
performance comparable to self-consistency while not only enhancing confidence
reliability but also reducing sampling costs by 50%. The code and resources are
available at https://wnjxyk.github.io/RPC.