Schaalbare Machtsteekproeven: Efficiënte, Trainingsvrije Redeneervaardigheid voor LLM's Ontsluiten via Distributieverscherping

Samenvatting

Reinforcement learning (RL) na-training is een dominante aanpak om de redeneerprestaties van grote taalmmodellen (LLM's) te verbeteren, maar er zijn steeds meer aanwijzingen dat de winst voornamelijk voortkomt uit distributieverscherping in plaats van de verwerving van nieuwe capaciteiten. Recent onderzoek heeft aangetoond dat steekproefsgewijze extractie uit de machtsverdeling van LLM's met behulp van Markov chain Monte Carlo (MCMC) prestaties kan opleveren die vergelijkbaar zijn met RL na-training, zonder afhankelijk te zijn van externe beloningen; de hoge computationele kosten van MCMC maken dergelijke benaderingen echter onpraktisch voor wijdverspreide adoptie. In dit werk stellen we een theoretisch onderbouwde alternatieve methode voor die de noodzaak van iteratieve MCMC elimineert. We leiden een nieuwe formulering af die aantoont dat de globale machtsverdeling kan worden benaderd door een token-niveau geschaalde laagetemperatuurverdeling, waarbij de schalingsfactor de toekomstige trajectkwaliteit vastlegt. Gebruikmakend van dit inzicht introduceren we een trainingsvrij en verificator-vrij algoritme dat de generatieve verdeling van het basismodel autoregressief verscherpt. Empirisch evalueren we onze methode op wiskunde-, vraag-antwoord- en codeertaken met vier LLM's, en tonen we aan dat onze methode de prestaties van one-shot GRPO evenaart of overtreft zonder gebruik te maken van externe beloningen, terwijl de inferentielatentie met meer dan 10x wordt verminderd in vergelijking met MCMC-gebaseerde steekproeftrekking.

English

Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.

Schaalbare Machtsteekproeven: Efficiënte, Trainingsvrije Redeneervaardigheid voor LLM's Ontsluiten via Distributieverscherping

Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening

Samenvatting

Support