Uma Abordagem de Inferência Probabilística para Escalonamento de LLMs no Momento da Inferência usando Métodos de Monte Carlo Baseados em Partículas
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
February 3, 2025
Autores: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) alcançaram ganhos significativos de desempenho por meio do aumento do tamanho do modelo e/ou dos dados. No entanto, evidências recentes sugerem retornos decrescentes dessas abordagens, o que motiva o aumento da computação utilizada no tempo de inferência. Métodos existentes de escalonamento no tempo de inferência, geralmente com modelos de recompensa, tratam a tarefa como um problema de busca, o que tende a ser vulnerável a manipulações de recompensa como consequência de erros de aproximação nos modelos de recompensa. Neste artigo, em vez disso, tratamos o escalonamento no tempo de inferência como uma tarefa de inferência probabilística e aproveitamos técnicas baseadas em amostragem para explorar o conjunto típico da distribuição de estados de um modelo de espaço de estados com uma verossimilhança aproximada, em vez de otimizar diretamente para o seu modo. Propomos uma abordagem de escalonamento no tempo de inferência inovadora, adaptando métodos de Monte Carlo baseados em partículas para esta tarefa. Nossa avaliação empírica demonstra que nossos métodos têm uma taxa de escalonamento 4-16 vezes melhor em relação aos nossos métodos de busca determinística em várias tarefas desafiadoras de raciocínio matemático. Usando nossa abordagem, mostramos que o Qwen2.5-Math-1.5B-Instruct pode superar a precisão do GPT-4o em apenas 4 iterações, enquanto o Qwen2.5-Math-7B-Instruct atinge uma precisão de nível o1 em apenas 32 iterações. Nosso trabalho não apenas apresenta um método eficaz para escalonamento no tempo de inferência, mas também conecta a rica literatura em inferência probabilística com o escalonamento no tempo de inferência de LLMs para desenvolver algoritmos mais robustos em trabalhos futuros. O código e mais informações estão disponíveis em https://probabilistic-inference-scaling.github.io.
English
Large language models (LLMs) have achieved significant performance gains via
scaling up model sizes and/or data. However, recent evidence suggests
diminishing returns from such approaches, motivating scaling the computation
spent at inference time. Existing inference-time scaling methods, usually with
reward models, cast the task as a search problem, which tends to be vulnerable
to reward hacking as a consequence of approximation errors in reward models. In
this paper, we instead cast inference-time scaling as a probabilistic inference
task and leverage sampling-based techniques to explore the typical set of the
state distribution of a state-space model with an approximate likelihood,
rather than optimize for its mode directly. We propose a novel inference-time
scaling approach by adapting particle-based Monte Carlo methods to this task.
Our empirical evaluation demonstrates that our methods have a 4-16x better
scaling rate over our deterministic search counterparts on various challenging
mathematical reasoning tasks. Using our approach, we show that
Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts,
while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts.
Our work not only presents an effective method to inference-time scaling, but
also connects the rich literature in probabilistic inference with
inference-time scaling of LLMs to develop more robust algorithms in future
work. Code and further information is available at
https://probabilistic-inference-scaling.github.io.Summary
AI-Generated Summary