Échantillonnage de puissance évolutif : Libérer un raisonnement efficace et sans entraînement pour les LLM via l'accentuation de la distribution
Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening
January 29, 2026
papers.authors: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) en post-formation est une approche dominante pour améliorer les performances de raisonnement des grands modèles de langage (LLM), mais des preuves de plus en plus nombreuses suggèrent que ses gains proviennent principalement d'un resserrement de la distribution plutôt que de l'acquisition de nouvelles capacités. Des travaux récents ont montré que l'échantillonnage à partir de la distribution de puissance des LLM en utilisant les chaînes de Markov Monte Carlo (MCMC) peut permettre d'atteindre des performances comparables au RL en post-formation sans recourir à des récompenses externes ; cependant, le coût computationnel élevé des MCMC rend ces approches impraticables pour une adoption généralisée. Dans ce travail, nous proposons une alternative théoriquement fondée qui élimine le besoin d'itérations MCMC. Nous dérivons une nouvelle formulation montrant que la distribution de puissance globale peut être approximée par une distribution locale (au niveau des tokens) mise à l'échelle et à basse température, où le facteur d'échelle capture la qualité des trajectoires futures. En tirant parti de cette idée, nous introduisons un algorithme sans apprentissage et sans vérificateur qui resserre de manière autorégressive la distribution générative du modèle de base. Empiriquement, nous évaluons notre méthode sur des tâches de mathématiques, de questions-réponses et de code avec quatre LLM, et montrons que notre méthode égale ou dépasse le GRPO en un seul passage sans s'appuyer sur des récompenses externes, tout en réduisant la latence d'inférence de plus de 10 fois par rapport à l'échantillonnage basé sur les MCMC.
English
Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.