샘플링을 통한 추론: 기본 모델이 생각보다 똑똑한 이유
Reasoning with Sampling: Your Base Model is Smarter Than You Think
October 16, 2025
저자: Aayush Karan, Yilun Du
cs.AI
초록
최첨단 추론 모델은 강화 학습(RL)을 통한 대규모 언어 모델(LLM)의 사후 훈련을 바탕으로 다양한 분야에서 놀라운 능력을 보여주고 있습니다. 그러나 이러한 패러다임이 널리 성공을 거두었음에도 불구하고, 기존 모델에는 없었던 RL 과정에서 새롭게 나타나는 진정한 행동 특성을 규명하는 데 많은 연구가 집중되어 왔습니다. 본 연구에서는 이 문제에 다른 각도에서 접근하여, 추가 훈련 없이 순수 샘플링만으로 추론 시점에 기반 모델에서 유사한 추론 능력을 이끌어낼 수 있는지 탐구합니다. 첨예화된 분포로부터 샘플링을 위한 마르코프 연쇄 몬테카를로(MCMC) 기법에서 영감을 받아, 기반 모델 자체의 가능도를 활용한 간단한 반복 샘플링 알고리즘을 제안합니다. 다양한 기반 모델을 대상으로 한 실험에서, 본 알고리즘이 MATH500, HumanEval, GPQA 등 다양한 단일 샘플 작업에서 RL을 통한 성능 향상에 근접하거나 오히려 능가하는 상당한 추론 능력 향상을 제공함을 입증합니다. 더욱이 본 샘플러는 RL 사후 훈련의 특징인 다중 샘플에 걸친 다양성 감소 현상을 방지합니다. 무엇보다 본 방법은 훈련, 정제된 데이터셋, 검증기가 필요하지 않아 쉽게 검증 가능한 영역을 넘어 폭넓게 적용 가능함을 시사합니다.
English
Frontier reasoning models have exhibited incredible capabilities across a
wide array of disciplines, driven by posttraining large language models (LLMs)
with reinforcement learning (RL). However, despite the widespread success of
this paradigm, much of the literature has been devoted to disentangling truly
novel behaviors that emerge during RL but are not present in the base models.
In our work, we approach this question from a different angle, instead asking
whether comparable reasoning capabilites can be elicited from base models at
inference time by pure sampling, without any additional training. Inspired by
Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened
distributions, we propose a simple iterative sampling algorithm leveraging the
base models' own likelihoods. Over different base models, we show that our
algorithm offers substantial boosts in reasoning that nearly match and even
outperform those from RL on a wide variety of single-shot tasks, including
MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in
diversity over multiple samples that is characteristic of RL-posttraining.
Crucially, our method does not require training, curated datasets, or a
verifier, suggesting broad applicability beyond easily verifiable domains.