ChatPaper.aiChatPaper

スケーラブルなパワーサンプリング:分布シャープ化によるLLMの効率的で学習不要な推論の実現

Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

January 29, 2026
著者: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar
cs.AI

要旨

強化学習(RL)に基づく事後学習は、大規模言語モデル(LLM)の推論性能を向上させる主要な手法である。しかし、その性能向上は主に新たな能力の獲得ではなく、分布のシャープニングに起因するという証拠が増えつつある。最近の研究では、マルコフ連鎖モンテカルロ法(MCMC)を用いてLLMのべき乗分布からサンプリングすることで、外部報酬に依存せずにRL事後学習に匹敵する性能を回復できることが示されている。しかし、MCMCの計算コストが高いため、こうした手法の広範な実用化は現実的ではない。本研究では、反復的なMCMCを不要とする理論的に基礎付けられた代替手法を提案する。我々は、グローバルなべき乗分布が、スケーリング係数が将来の軌道品質を捕捉するトークンレベルのスケーリング低温度分布によって近似できることを示す新たな定式化を導出する。この知見を活用し、基本モデルの生成分布を自己回帰的にシャープにする、学習不要かつ検証器不要のアルゴリズムを導入する。実験では、数学、QA、コードタスクにおいて4つのLLMに対して本手法を評価し、外部報酬を一切用いずにワンショットGRPOを匹敵または凌駕する性能を達成しつつ、MCMCベースのサンプリングと比較して推論遅延を10倍以上低減できることを示す。
English
Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.
PDF108January 31, 2026