Ragionare con il Campionamento: Il Tuo Modello Base è Più Intelligente di Quanto Pensi
Reasoning with Sampling: Your Base Model is Smarter Than You Think
October 16, 2025
Autori: Aayush Karan, Yilun Du
cs.AI
Abstract
I modelli di ragionamento all'avanguardia hanno dimostrato capacità incredibili in un'ampia gamma di discipline, spinti dall'addestramento post-allenamento di grandi modelli linguistici (LLM) con apprendimento per rinforzo (RL). Tuttavia, nonostante il diffuso successo di questo paradigma, gran parte della letteratura si è concentrata sul distinguere i comportamenti veramente nuovi che emergono durante il RL ma che non sono presenti nei modelli base. Nel nostro lavoro, affrontiamo questa questione da un'angolazione diversa, chiedendoci invece se capacità di ragionamento comparabili possano essere elicitate dai modelli base al momento dell'inferenza mediante puro campionamento, senza alcun addestramento aggiuntivo. Ispirati dalle tecniche di Markov chain Monte Carlo (MCMC) per il campionamento da distribuzioni affilate, proponiamo un semplice algoritmo di campionamento iterativo che sfrutta le verosimiglianze dei modelli base. Su diversi modelli base, dimostriamo che il nostro algoritmo offre miglioramenti sostanziali nel ragionamento che quasi eguagliano e addirittura superano quelli ottenuti con il RL in un'ampia varietà di task one-shot, tra cui MATH500, HumanEval e GPQA. Inoltre, il nostro campionatore evita il collasso della diversità su campioni multipli che è caratteristico del post-addestramento con RL. Crucialmente, il nostro metodo non richiede addestramento, dataset curati o un verificatore, suggerendo un'ampia applicabilità al di là di domini facilmente verificabili.
English
Frontier reasoning models have exhibited incredible capabilities across a
wide array of disciplines, driven by posttraining large language models (LLMs)
with reinforcement learning (RL). However, despite the widespread success of
this paradigm, much of the literature has been devoted to disentangling truly
novel behaviors that emerge during RL but are not present in the base models.
In our work, we approach this question from a different angle, instead asking
whether comparable reasoning capabilites can be elicited from base models at
inference time by pure sampling, without any additional training. Inspired by
Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened
distributions, we propose a simple iterative sampling algorithm leveraging the
base models' own likelihoods. Over different base models, we show that our
algorithm offers substantial boosts in reasoning that nearly match and even
outperform those from RL on a wide variety of single-shot tasks, including
MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in
diversity over multiple samples that is characteristic of RL-posttraining.
Crucially, our method does not require training, curated datasets, or a
verifier, suggesting broad applicability beyond easily verifiable domains.