Skalierbares Power-Sampling: Effizientes, trainingsfreies Reasoning für LLMs durch Distributionsschärfung
Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening
January 29, 2026
papers.authors: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar
cs.AI
papers.abstract
Nach dem Training durchgeführtes Reinforcement Learning (RL) ist ein dominanter Ansatz zur Verbesserung der Reasoning-Leistung großer Sprachmodelle (LLMs), doch zunehmende Belege deuten darauf hin, dass die Gewinne primär auf eine Verteilungsscharfung zurückgehen und nicht auf den Erwerb neuer Fähigkeiten. Jüngste Arbeiten haben gezeigt, dass das Abtasten der Potenzverteilung von LLMs mittels Markov-Chain-Monte-Carlo (MCMC) eine mit RL-Nachtraining vergleichbare Leistung erzielen kann, ohne auf externe Belohnungen angewiesen zu sein; die hohen Rechenkosten von MCMC machen solche Ansätze jedoch für eine breite Anwendung unpraktikabel. In dieser Arbeit schlagen wir eine theoretisch fundierte Alternative vor, die den Bedarf an iterativem MCMC eliminiert. Wir leiten eine neuartige Formulierung her, die zeigt, dass die globale Potenzverteilung durch eine tokenweise skalierte Niedrigtemperatur-Verteilung angenähert werden kann, wobei der Skalierungsfaktor die zukünftige Trajektorienqualität erfasst. Gestützt auf diese Erkenntnis führen wir einen trainierungs- und verifikatorfreien Algorithmus ein, der die generative Verteilung des Basismodells autoregressiv verschärft. Empirisch evaluieren wir unsere Methode an mathematischen, Frage-Antwort- und Code-Aufgaben über vier LLMs hinweg und zeigen, dass unsere Methode One-Shot-GRPO erreicht oder übertrifft, ohne auf externe Belohnungen angewiesen zu sein, während die Inferenzlatenz im Vergleich zu MCMC-basiertem Sampling um über das 10-fache reduziert wird.
English
Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.