LLMの推論時間スケーリングに対する確率推論アプローチ:粒子ベースのモンテカルロ法を用いて
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
February 3, 2025
著者: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
cs.AI
要旨
大規模言語モデル(LLMs)は、モデルサイズやデータのスケーリングを通じて著しい性能向上を達成しています。しかし、最近の証拠からは、そのようなアプローチからの収益の減少が示唆されており、推論時に費やす計算量をスケーリングする動機付けがされています。既存の推論時スケーリング手法は、通常、報酬モデルを用いて、タスクを探索問題として捉えますが、報酬モデルの近似誤差による報酬ハッキングへの脆弱性があります。本論文では、推論時スケーリングを確率推論タスクとして捉え、サンプリングベースの技術を活用して、状態空間モデルの状態分布の典型的なセットを探索し、近似尤度を用いて最適化するのではなく、そのモードを直接最適化する代わりに、新しい推論時スケーリングアプローチを提案します。我々は、このタスクに粒子ベースのモンテカルロ法を適応させることで、我々の手法がさまざまな難解な数学的推論タスクにおいて、決定論的探索手法に比べて4〜16倍のスケーリング率を持つことを実証しています。我々のアプローチを用いることで、Qwen2.5-Math-1.5B-Instructはわずか4回のロールアウトでGPT-4oの精度を上回ることができ、Qwen2.5-Math-7B-Instructはわずか32回のロールアウトでo1レベルの精度にスケーリングすることができます。本研究は、推論時スケーリングに対する効果的な手法を提示するだけでなく、確率推論の豊富な文献とLLMsの推論時スケーリングを結びつけ、将来のより堅牢なアルゴリズムの開発につながるものです。コードや詳細情報は、https://probabilistic-inference-scaling.github.io で入手可能です。
English
Large language models (LLMs) have achieved significant performance gains via
scaling up model sizes and/or data. However, recent evidence suggests
diminishing returns from such approaches, motivating scaling the computation
spent at inference time. Existing inference-time scaling methods, usually with
reward models, cast the task as a search problem, which tends to be vulnerable
to reward hacking as a consequence of approximation errors in reward models. In
this paper, we instead cast inference-time scaling as a probabilistic inference
task and leverage sampling-based techniques to explore the typical set of the
state distribution of a state-space model with an approximate likelihood,
rather than optimize for its mode directly. We propose a novel inference-time
scaling approach by adapting particle-based Monte Carlo methods to this task.
Our empirical evaluation demonstrates that our methods have a 4-16x better
scaling rate over our deterministic search counterparts on various challenging
mathematical reasoning tasks. Using our approach, we show that
Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts,
while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts.
Our work not only presents an effective method to inference-time scaling, but
also connects the rich literature in probabilistic inference with
inference-time scaling of LLMs to develop more robust algorithms in future
work. Code and further information is available at
https://probabilistic-inference-scaling.github.io.Summary
AI-Generated Summary