**Amostragem de Potência Escalável: Desbloqueando Raciocínio Eficiente e Livre de Treinamento para LLMs por meio do Acentuamento da Distribuição**

Resumo

O pós-treinamento por reforço (RL) é uma abordagem dominante para melhorar o desempenho de raciocínio de grandes modelos de linguagem (LLMs), no entanto, evidências crescentes sugerem que seus ganhos surgem principalmente do afiamento da distribuição, e não da aquisição de novas capacidades. Trabalhos recentes mostraram que amostrar da distribuição de potência de LLMs usando Cadeias de Markov Monte Carlo (MCMC) pode recuperar um desempenho comparável ao pós-treinamento por RL sem depender de recompensas externas; no entanto, o alto custo computacional do MCMC torna tais abordagens impraticáveis para uma adoção generalizada. Neste trabalho, propomos uma alternativa teoricamente fundamentada que elimina a necessidade do MCMC iterativo. Derivamos uma nova formulação que mostra que a distribuição de potência global pode ser aproximada por uma distribuição de baixa temperatura escalonada a nível de token, onde o fator de escala captura a qualidade da trajetória futura. Aproveitando esta perceção, introduzimos um algoritmo livre de treino e de verificador que afia a distribuição generativa do modelo base de forma autorregressiva. Empiricamente, avaliamos o nosso método em tarefas de matemática, Q&A e código em quatro LLMs, e mostramos que o nosso método iguala ou supera o GRPO de uma única tentativa sem depender de quaisquer recompensas externas, enquanto reduz a latência de inferência em mais de 10x em comparação com a amostragem baseada em MCMC.

English

Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.

Amostragem de Potência Escalável: Desbloqueando Raciocínio Eficiente e Livre de Treinamento para LLMs por meio do Acentuamento da Distribuição

Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

Resumo

Support