サンプリングを用いた推論:ベースモデルはあなたが思っている以上に賢い
Reasoning with Sampling: Your Base Model is Smarter Than You Think
October 16, 2025
著者: Aayush Karan, Yilun Du
cs.AI
要旨
最先端の推論モデルは、強化学習(RL)による大規模言語モデル(LLM)の学習後調整によって、多様な分野で驚異的な能力を示している。しかし、このパラダイムが広く成功を収めているにもかかわらず、既存研究の多くは、ベースモデルには存在せずRL学習中に新たに出現する真に新奇な振る舞いを解明することに注力してきた。本研究ではこの問題を異なる角度から捉え、追加の学習を一切行わず、純粋なサンプリングによって推論能力が推論時にベースモデルから引き出せるかどうかを検討する。シャープ化された分布からのサンプリング手法であるマルコフ連鎖モンテカルロ法(MCMC)に着想を得て、ベースモデル自身の尤度を活用した簡潔な反復サンプリングアルゴリズムを提案する。各種ベースモデルにおいて、本アルゴリズムがMATH500、HumanEval、GPQAなど多様な単一試行タスクで、RLによる性能向上に迫り、時に凌駕する大幅な推論能力の向上をもたらすことを実証する。さらに本サンプラーは、RL学習後モデルに特徴的な多様性の低下を回避する。決定的に、本手法は学習や精選されたデータセット、検証器を必要としないため、検証が容易な領域を超えた幅広い適用可能性を示唆している。
English
Frontier reasoning models have exhibited incredible capabilities across a
wide array of disciplines, driven by posttraining large language models (LLMs)
with reinforcement learning (RL). However, despite the widespread success of
this paradigm, much of the literature has been devoted to disentangling truly
novel behaviors that emerge during RL but are not present in the base models.
In our work, we approach this question from a different angle, instead asking
whether comparable reasoning capabilites can be elicited from base models at
inference time by pure sampling, without any additional training. Inspired by
Markov chain Monte Carlo (MCMC) techniques for sampling from sharpened
distributions, we propose a simple iterative sampling algorithm leveraging the
base models' own likelihoods. Over different base models, we show that our
algorithm offers substantial boosts in reasoning that nearly match and even
outperform those from RL on a wide variety of single-shot tasks, including
MATH500, HumanEval, and GPQA. Moreover, our sampler avoids the collapse in
diversity over multiple samples that is characteristic of RL-posttraining.
Crucially, our method does not require training, curated datasets, or a
verifier, suggesting broad applicability beyond easily verifiable domains.