Raciocínio com Amostragem: Seu Modelo Base é Mais Inteligente do que Você Imagina

Resumo

Os modelos de raciocínio de ponta têm demonstrado capacidades incríveis em uma ampla gama de disciplinas, impulsionados pelo pós-treinamento de grandes modelos de linguagem (LLMs) com aprendizado por reforço (RL). No entanto, apesar do sucesso generalizado deste paradigma, grande parte da literatura tem se dedicado a desvendar comportamentos verdadeiramente novos que emergem durante o RL, mas que não estão presentes nos modelos base. Em nosso trabalho, abordamos esta questão de um ângulo diferente, questionando, em vez disso, se capacidades de raciocínio comparáveis podem ser eliciadas dos modelos base no momento da inferência por meio de amostragem pura, sem qualquer treinamento adicional. Inspirados pelas técnicas de Monte Carlo via Cadeias de Markov (MCMC) para amostragem de distribuições afiadas, propomos um algoritmo de amostragem iterativo e simples que aproveita as próprias verossimilhanças dos modelos base. Em diferentes modelos base, mostramos que nosso algoritmo oferece ganhos substanciais no raciocínio que quase igualam e até superam aqueles obtidos com RL em uma ampla variedade de tarefas de etapa única, incluindo MATH500, HumanEval e GPQA. Além disso, nosso amostrador evita o colapso na diversidade ao longo de múltiplas amostras, que é característico do pós-treinamento com RL. Crucialmente, nosso método não requer treinamento, conjuntos de dados curados ou um verificador, sugerindo ampla aplicabilidade além de domínios facilmente verificáveis.

English

Frontier reasoning models have exhibited incredible capabilities across a wide array of disciplines, driven by posttraining large language models (LLMs) with reinforcement learning (RL). However, despite the widespread success of this paradigm, much of the literature has been devoted to disentangling truly novel behaviors that emerge during RL but are not present in the base models. In our work, we approach this question from a different angle, instead asking whether comparable reasoning capabilites can be elicited from base models at inference time by pure sampling, without any additional training. Inspired by Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened distributions, we propose a simple iterative sampling algorithm leveraging the base models' own likelihoods. Over different base models, we show that our algorithm offers substantial boosts in reasoning that nearly match and even outperform those from RL on a wide variety of single-shot tasks, including MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in diversity over multiple samples that is characteristic of RL-posttraining. Crucially, our method does not require training, curated datasets, or a verifier, suggesting broad applicability beyond easily verifiable domains.

Raciocínio com Amostragem: Seu Modelo Base é Mais Inteligente do que Você Imagina

Reasoning with Sampling: Your Base Model is Smarter Than You Think

Resumo

Support