Рассуждения с помощью сэмплирования: ваша базовая модель умнее, чем вы думаете
Reasoning with Sampling: Your Base Model is Smarter Than You Think
October 16, 2025
Авторы: Aayush Karan, Yilun Du
cs.AI
Аннотация
Передовые модели логического вывода продемонстрировали впечатляющие способности в самых разных областях благодаря дообучению больших языковых моделей (LLM) с подкреплением (RL). Однако, несмотря на широкий успех этой парадигмы, значительная часть литературы посвящена разграничению действительно новых поведений, которые возникают в процессе RL, но отсутствуют в базовых моделях. В нашей работе мы подходим к этому вопросу с другой стороны, задаваясь вопросом, можно ли добиться сопоставимых логических способностей от базовых моделей на этапе вывода с помощью чистого сэмплинга, без какого-либо дополнительного обучения. Вдохновленные методами Монте-Карло по цепи Маркова (MCMC) для выборки из "заостренных" распределений, мы предлагаем простой итеративный алгоритм выборки, использующий собственные функции правдоподобия базовых моделей. На различных базовых моделях мы показываем, что наш алгоритм обеспечивает существенный прирост в логических рассуждениях, который почти соответствует и даже превосходит результаты, достигнутые с помощью RL, на множестве разовых задач, включая MATH500, HumanEval и GPQA. Более того, наш метод выборки позволяет избежать снижения разнообразия при множественных сэмплах, что характерно для моделей, дообученных с подкреплением. Ключевым моментом является то, что наш метод не требует обучения, курируемых наборов данных или верификатора, что предполагает широкую применимость за пределами легко проверяемых областей.
English
Frontier reasoning models have exhibited incredible capabilities across a
wide array of disciplines, driven by posttraining large language models (LLMs)
with reinforcement learning (RL). However, despite the widespread success of
this paradigm, much of the literature has been devoted to disentangling truly
novel behaviors that emerge during RL but are not present in the base models.
In our work, we approach this question from a different angle, instead asking
whether comparable reasoning capabilites can be elicited from base models at
inference time by pure sampling, without any additional training. Inspired by
Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened
distributions, we propose a simple iterative sampling algorithm leveraging the
base models' own likelihoods. Over different base models, we show that our
algorithm offers substantial boosts in reasoning that nearly match and even
outperform those from RL on a wide variety of single-shot tasks, including
MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in
diversity over multiple samples that is characteristic of RL-posttraining.
Crucially, our method does not require training, curated datasets, or a
verifier, suggesting broad applicability beyond easily verifiable domains.