Вероятностный подход к масштабированию LLM во время вывода с использованием методов Монте-Карло на основе частиц

Аннотация

Большие языковые модели (LLM) достигли значительного улучшения производительности за счет увеличения размеров моделей и/или данных. Однако недавние данные свидетельствуют о убывающей отдаче от таких подходов, что мотивирует увеличение вычислительных затрат во время вывода. Существующие методы масштабирования во время вывода, обычно с моделями вознаграждения, представляют задачу как проблему поиска, что обычно делает ее уязвимой для взлома вознаграждения в результате ошибок аппроксимации в моделях вознаграждения. В данной статье мы вместо этого представляем масштабирование во время вывода как задачу вероятностного вывода и используем методы на основе выборки для исследования типичного набора распределения состояний модели пространства состояний с приблизительной вероятностью, а не для прямой оптимизации ее моды. Мы предлагаем новый подход к масштабированию во время вывода, адаптируя методы Монте-Карло на основе частиц к этой задаче. Наша эмпирическая оценка показывает, что наши методы имеют скорость масштабирования на 4-16 раз выше по сравнению с нашими детерминированными аналогами поиска на различных сложных задачах математического рассуждения. Используя наш подход, мы показываем, что Qwen2.5-Math-1.5B-Instruct может превзойти точность GPT-4o всего за 4 прогонов, в то время как Qwen2.5-Math-7B-Instruct достигает уровня точности o1 всего за 32 прогона. Наша работа не только представляет эффективный метод масштабирования во время вывода, но также соединяет богатую литературу в вероятностном выводе с масштабированием во время вывода LLM для разработки более надежных алгоритмов в будущей работе. Код и дополнительная информация доступны на https://probabilistic-inference-scaling.github.io.

English

Large language models (LLMs) have achieved significant performance gains via scaling up model sizes and/or data. However, recent evidence suggests diminishing returns from such approaches, motivating scaling the computation spent at inference time. Existing inference-time scaling methods, usually with reward models, cast the task as a search problem, which tends to be vulnerable to reward hacking as a consequence of approximation errors in reward models. In this paper, we instead cast inference-time scaling as a probabilistic inference task and leverage sampling-based techniques to explore the typical set of the state distribution of a state-space model with an approximate likelihood, rather than optimize for its mode directly. We propose a novel inference-time scaling approach by adapting particle-based Monte Carlo methods to this task. Our empirical evaluation demonstrates that our methods have a 4-16x better scaling rate over our deterministic search counterparts on various challenging mathematical reasoning tasks. Using our approach, we show that Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts, while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts. Our work not only presents an effective method to inference-time scaling, but also connects the rich literature in probabilistic inference with inference-time scaling of LLMs to develop more robust algorithms in future work. Code and further information is available at https://probabilistic-inference-scaling.github.io.

Вероятностный подход к масштабированию LLM во время вывода с использованием методов Монте-Карло на основе частиц

A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Аннотация

Support