Масштабируемый сэмплинг мощности: раскрытие потенциала эффективного логического вывода без обучения для больших языковых моделей через заострение распределения
Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening
January 29, 2026
Авторы: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar
cs.AI
Аннотация
Дополнительное обучение с подкреплением (RL) является доминирующим подходом для повышения производительности рассуждений больших языковых моделей (LLM), однако растущее количество свидетельств указывает на то, что его выгоды возникают в первую очередь за счет "заострения" распределения (distribution sharpening), а не за счет приобретения новых способностей. Недавние исследования показали, что сэмплирование из степенного распределения (power distribution) LLM с использованием методов Монте-Карло по цепи Маркова (MCMC) позволяет достичь производительности, сравнимой с RL-дообучением, без reliance на внешние вознаграждения; однако высокая вычислительная стоимость MCMC делает такие подходы непрактичными для широкого распространения. В данной работе мы предлагаем теоретически обоснованную альтернативу, которая устраняет необходимость в итеративном MCMC. Мы выводим новую формулировку, показывающую, что глобальное степенное распределение может быть аппроксимировано токен-уровневым масштабированным распределением при низкой температуре (scaled low-temperature distribution), где масштабирующий коэффициент отражает качество будущей траектории. Используя это наблюдение, мы представляем не требующий обучения и верификатора алгоритм, который авторегрессивно "заостряет" генеративное распределение базовой модели. Эмпирически мы оцениваем наш метод на задачах по математике, вопросам-ответам и программированию для четырех LLM и показываем, что наш метод соответствует или превосходит one-shot GRPO, не полагаясь на какие-либо внешние вознаграждения, при этом сокращая задержку вывода более чем в 10 раз по сравнению с MCMC-сэмплированием.
English
Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.