Campionamento Scalabile della Potenza: Sbloccare un Ragionamento Efficiente e Senza Addestramento per gli LLM tramite l'Affinamento della Distribuzione

Abstract

L'addestramento post-rinforzo (RL) è un approccio dominante per migliorare le prestazioni di ragionamento dei grandi modelli linguistici (LLM), tuttavia prove crescenti suggeriscono che i suoi vantaggi derivino principalmente da un affinamento della distribuzione piuttosto che dall'acquisizione di nuove capacità. Ricerche recenti hanno dimostrato che il campionamento dalla distribuzione di potenza degli LLM utilizzando il metodo Monte Carlo a catena di Markov (MCMC) può recuperare prestazioni paragonabili all'addestramento RL post-rinforzo senza fare affidamento su ricompense esterne; tuttavia, l'elevato costo computazionale del MCMC rende tali approcci impraticabili per un'adozione diffusa. In questo lavoro, proponiamo un'alternativa teoricamente fondata che elimina la necessità del MCMC iterativo. Deriviamo una nuova formulazione che mostra come la distribuzione di potenza globale possa essere approssimata da una distribuzione a livello di token scalata e a bassa temperatura, dove il fattore di scala cattura la qualità della traiettoria futura. Sfruttando questa intuizione, introduciamo un algoritmo senza addestramento e senza verificatore che affina autoregressivamente la distribuzione generativa del modello base. Empiricamente, valutiamo il nostro metodo su compiti di matematica, QA e codice su quattro LLM, e dimostriamo che il nostro metodo eguaglia o supera il GRPO one-shot senza fare affidamento su ricompense esterne, riducendo al contempo la latenza di inferenza di oltre 10 volte rispetto al campionamento basato su MCMC.

English

Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.

Campionamento Scalabile della Potenza: Sbloccare un Ragionamento Efficiente e Senza Addestramento per gli LLM tramite l'Affinamento della Distribuzione

Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

Abstract

Support