ChatPaper.aiChatPaper

Raisonner par échantillonnage : votre modèle de base est plus intelligent que vous ne le pensez

Reasoning with Sampling: Your Base Model is Smarter Than You Think

October 16, 2025
papers.authors: Aayush Karan, Yilun Du
cs.AI

papers.abstract

Les modèles de raisonnement de pointe ont démontré des capacités remarquables dans un large éventail de disciplines, grâce au post-entraînement de grands modèles de langage (LLM) par apprentissage par renforcement (RL). Cependant, malgré le succès généralisé de ce paradigme, une grande partie de la littérature s'est consacrée à démêler les comportements véritablement nouveaux qui émergent durant le RL mais sont absents des modèles de base. Dans notre travail, nous abordons cette question sous un angle différent, en nous demandant plutôt si des capacités de raisonnement comparables peuvent être suscitées à partir des modèles de base au moment de l'inférence par un simple échantillonnage, sans aucun entraînement supplémentaire. Inspirés par les techniques de Monte-Carlo par chaîne de Markov (MCMC) pour échantillonner à partir de distributions aiguisées, nous proposons un algorithme d'échantillonnage itératif simple qui exploite les vraisemblances propres aux modèles de base. Sur différents modèles de base, nous montrons que notre algorithme offre des gains substantiels en raisonnement qui égalent quasiement, et même surpassent parfois, ceux obtenus par le RL sur une grande variété de tâches en un seul essai, incluant MATH500, HumanEval et GPQA. De plus, notre échantillonneur évite l'effondrement de la diversité sur de multiples échantillons, caractéristique du post-entraînement par RL. Fait crucial, notre méthode ne nécessite pas d'entraînement, de jeux de données curatés ou de vérificateur, ce qui suggère une applicabilité étendue au-delà des domaines facilement vérifiables.
English
Frontier reasoning models have exhibited incredible capabilities across a wide array of disciplines, driven by posttraining large language models (LLMs) with reinforcement learning (RL). However, despite the widespread success of this paradigm, much of the literature has been devoted to disentangling truly novel behaviors that emerge during RL but are not present in the base models. In our work, we approach this question from a different angle, instead asking whether comparable reasoning capabilites can be elicited from base models at inference time by pure sampling, without any additional training. Inspired by Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened distributions, we propose a simple iterative sampling algorithm leveraging the base models' own likelihoods. Over different base models, we show that our algorithm offers substantial boosts in reasoning that nearly match and even outperform those from RL on a wide variety of single-shot tasks, including MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in diversity over multiple samples that is characteristic of RL-posttraining. Crucially, our method does not require training, curated datasets, or a verifier, suggesting broad applicability beyond easily verifiable domains.
PDF476December 17, 2025