확장 가능한 파워 샘플링: 분포 선명화를 통한 LLM의 효율적이고 훈련 불필요한 추론 개방
Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening
January 29, 2026
저자: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar
cs.AI
초록
강화학습(RL) 후속 학습은 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 주요 접근법이지만, 그 성능 향상이 새로운 능력의 획득보다는 분포 샤프닝에서 비롯된다는 증거가 점차 늘어나고 있습니다. 최근 연구에서는 마르코프 체인 몬테카를로(MCMC)를 사용하여 LLM의 거듭제곱 분포에서 샘플링하면 외부 보상에 의존하지 않고도 RL 후속 학습에 버금가는 성능을 회복할 수 있음이 입증되었습니다. 그러나 MCMC의 높은 계산 비용으로 인해 이러한 접근법이 널리 채택되기는 어렵습니다. 본 연구에서는 반복적인 MCMC 과정 없이도 이론적으로 타당한 대안을 제시합니다. 우리는 전역 거듭제곱 분포가 토큰 수준의 스케일링된 저온 분포로 근사될 수 있음을 보이는 새로운 공식을 도출했습니다. 여기서 스케일링 인자는 미래 궤적의 품질을 포착합니다. 이러한 통찰을 바탕으로, 기본 모델의 생성 분포를 자기회귀적으로 샤프닝하는 학습 불필요 및 검증기 불필요 알고리즘을 소개합니다. 실험적으로 수학, 질의응답, 코드 작업에 대해 4가지 LLM을 대상으로 본 방법을 평가한 결과, 외부 보상에 전혀 의존하지 않으면서 원샷 GRPO를 능가하거나 그에 버금가는 성능을 달성했으며, MCMC 기반 샘플링 대비 추론 지연 시간을 10배 이상 단축시켰습니다.
English
Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.