ChatPaper.aiChatPaper

Begründung durch Stichproben: Ihr Basismodell ist schlauer, als Sie denken

Reasoning with Sampling: Your Base Model is Smarter Than You Think

October 16, 2025
papers.authors: Aayush Karan, Yilun Du
cs.AI

papers.abstract

Führende Reasoning-Modelle haben in einer Vielzahl von Disziplinen beeindruckende Fähigkeiten gezeigt, angetrieben durch Nachtraining großer Sprachmodelle (LLMs) mit Verstärkendem Lernen (RL). Trotz des weitverbreiteten Erfolgs dieses Paradigmas hat sich ein Großteil der Literatur darauf konzentriert, wirklich neuartige Verhaltensweisen zu entwirren, die während des RL entstehen, aber nicht in den Basismodellen vorhanden sind. In unserer Arbeit nähern wir uns dieser Frage aus einem anderen Blickwinkel und fragen stattdessen, ob vergleichbare Reasoning-Fähigkeiten bereits zur Inferenzzeit aus Basismodellen durch reines Sampling abgerufen werden können, ohne zusätzliches Training. Inspiriert von Markov-Chain-Monte-Carlo-(MCMC)-Techniken zum Sampling aus geschärften Verteilungen schlagen wir einen einfachen iterativen Sampling-Algorithmus vor, der die eigenen Likelihoods der Basismodelle nutzt. Wir zeigen für verschiedene Basismodelle, dass unser Algorithmus substanzielle Steigerungen der Reasoning-Fähigkeiten bietet, die diejenigen aus RL auf einer Vielzahl von Single-Shot-Aufgaben – einschließlich MATH500, HumanEval und GPQA – nahezu erreichen und sogar übertreffen. Darüber hinaus vermeidet unser Sampler den für RL-Nachtraining charakteristischen Kollaps der Diversität über mehrere Stichproben hinweg. Entscheidend ist, dass unsere Methode kein Training, kuratierte Datensätze oder einen Verifizierer erfordert, was auf eine breite Anwendbarkeit auch über leicht verifizierbare Domänen hinaus hindeutet.
English
Frontier reasoning models have exhibited incredible capabilities across a wide array of disciplines, driven by posttraining large language models (LLMs) with reinforcement learning (RL). However, despite the widespread success of this paradigm, much of the literature has been devoted to disentangling truly novel behaviors that emerge during RL but are not present in the base models. In our work, we approach this question from a different angle, instead asking whether comparable reasoning capabilites can be elicited from base models at inference time by pure sampling, without any additional training. Inspired by Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened distributions, we propose a simple iterative sampling algorithm leveraging the base models' own likelihoods. Over different base models, we show that our algorithm offers substantial boosts in reasoning that nearly match and even outperform those from RL on a wide variety of single-shot tasks, including MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in diversity over multiple samples that is characteristic of RL-posttraining. Crucially, our method does not require training, curated datasets, or a verifier, suggesting broad applicability beyond easily verifiable domains.
PDF476December 17, 2025