サンプル、検証、およびスケーリング:スケーリングによる効果的な推論時間検索
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification
February 3, 2025
著者: Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi
cs.AI
要旨
サンプリングベースの探索は、テスト時の計算を活用するためのシンプルなパラダイムであり、複数の候補応答を生成し、最良のものを選択することを含みます — 通常は各応答を正確性について検証することによって。本論文では、サンプリングベースの探索を統御するスケーリングの傾向について研究しています。私たちの発見の中には、単にランダムサンプリングと直接的な自己検証のみを使用する最小限の実装をスケーリングアップすることで、持続的なパフォーマンス向上がもたらされることが含まれます。例えば、Gemini v1.5 Proモデルの推論能力をo1-Previewよりも優れた人気のベンチマークに押し上げる結果が得られます。サンプリングベースの探索のスケーラビリティを、より大きな応答プールをサンプリングすることが検証精度を向上させるという暗黙のスケーリング現象に一部帰属します。また、テスト時の計算を用いた自己検証能力を向上させるための2つの有用な原則を特定しています:(1) 応答間の比較は、エラーや幻覚の位置に関する有益なシグナルを提供し、(2) 異なるモデルの出力スタイルは異なる文脈で有用であり、推論には思考の連鎖が有用ですが、検証が難しいです。また、正確な検証が引き出されることがありますが、フロンティアモデルは驚くほど弱いアウトオブボックスの検証能力を示し、これらの欠点に対する進展を測定するためのベンチマークを導入しています。
English
Sampling-based search, a simple paradigm for utilizing test-time compute,
involves generating multiple candidate responses and selecting the best one --
typically by verifying each response for correctness. In this paper, we study
the scaling trends governing sampling-based search. Among our findings is that
simply scaling up a minimalist implementation that uses only random sampling
and direct self-verification results in sustained performance improvements
that, for example, elevate the Gemini v1.5 Pro model's reasoning capabilities
past that of o1-Preview on popular benchmarks. We partially attribute the
scalability of sampling-based search to a phenomenon of implicit scaling, where
sampling a larger pool of responses in turn improves verification accuracy. We
further identify two useful principles for improving self-verification
capabilities with test-time compute: (1) comparing across responses provides
helpful signals about the locations of errors and hallucinations, and (2)
different model output styles are useful for different contexts -- chains of
thought are useful for reasoning but harder to verify. We also find that,
though accurate verification can be elicited, frontier models demonstrate
remarkably weak out-of-box verification capabilities and introduce a benchmark
to measure progress on these deficiencies.Summary
AI-Generated Summary