Raciocínio com Amostragem: Seu Modelo Base é Mais Inteligente do que Você Imagina
Reasoning with Sampling: Your Base Model is Smarter Than You Think
October 16, 2025
Autores: Aayush Karan, Yilun Du
cs.AI
Resumo
Os modelos de raciocínio de ponta têm demonstrado capacidades incríveis em uma ampla gama de disciplinas, impulsionados pelo pós-treinamento de grandes modelos de linguagem (LLMs) com aprendizado por reforço (RL). No entanto, apesar do sucesso generalizado deste paradigma, grande parte da literatura tem se dedicado a desvendar comportamentos verdadeiramente novos que emergem durante o RL, mas que não estão presentes nos modelos base. Em nosso trabalho, abordamos esta questão de um ângulo diferente, questionando, em vez disso, se capacidades de raciocínio comparáveis podem ser eliciadas dos modelos base no momento da inferência por meio de amostragem pura, sem qualquer treinamento adicional. Inspirados pelas técnicas de Monte Carlo via Cadeias de Markov (MCMC) para amostragem de distribuições afiadas, propomos um algoritmo de amostragem iterativo e simples que aproveita as próprias verossimilhanças dos modelos base. Em diferentes modelos base, mostramos que nosso algoritmo oferece ganhos substanciais no raciocínio que quase igualam e até superam aqueles obtidos com RL em uma ampla variedade de tarefas de etapa única, incluindo MATH500, HumanEval e GPQA. Além disso, nosso amostrador evita o colapso na diversidade ao longo de múltiplas amostras, que é característico do pós-treinamento com RL. Crucialmente, nosso método não requer treinamento, conjuntos de dados curados ou um verificador, sugerindo ampla aplicabilidade além de domínios facilmente verificáveis.
English
Frontier reasoning models have exhibited incredible capabilities across a
wide array of disciplines, driven by posttraining large language models (LLMs)
with reinforcement learning (RL). However, despite the widespread success of
this paradigm, much of the literature has been devoted to disentangling truly
novel behaviors that emerge during RL but are not present in the base models.
In our work, we approach this question from a different angle, instead asking
whether comparable reasoning capabilites can be elicited from base models at
inference time by pure sampling, without any additional training. Inspired by
Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened
distributions, we propose a simple iterative sampling algorithm leveraging the
base models' own likelihoods. Over different base models, we show that our
algorithm offers substantial boosts in reasoning that nearly match and even
outperform those from RL on a wide variety of single-shot tasks, including
MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in
diversity over multiple samples that is characteristic of RL-posttraining.
Crucially, our method does not require training, curated datasets, or a
verifier, suggesting broad applicability beyond easily verifiable domains.