Un Approccio di Inferenza Probabilistica per la Scalabilità dei Modelli Linguistici a Livello di Inferenza utilizzando Metodi Monte Carlo basati su Particelle
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
February 3, 2025
Autori: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto significativi miglioramenti delle prestazioni attraverso l'aumento delle dimensioni del modello e/o dei dati. Tuttavia, recenti evidenze suggeriscono rendimenti decrescenti da tali approcci, spingendo verso il dimensionamento della computazione impiegata durante l'inferenza. I metodi esistenti di dimensionamento durante l'inferenza, di solito con modelli di ricompensa, considerano il compito come un problema di ricerca, che tende ad essere vulnerabile all'hacking della ricompensa a causa degli errori di approssimazione nei modelli di ricompensa. In questo articolo, invece, consideriamo il dimensionamento durante l'inferenza come un compito di inferenza probabilistica e sfruttiamo tecniche basate su campionamento per esplorare l'insieme tipico della distribuzione degli stati di un modello dello spazio degli stati con una verosimiglianza approssimata, piuttosto che ottimizzare direttamente il suo modo. Proponiamo un nuovo approccio al dimensionamento durante l'inferenza adattando metodi di Monte Carlo basati su particelle a questo compito. La nostra valutazione empirica dimostra che i nostri metodi hanno un tasso di dimensionamento 4-16 volte migliore rispetto ai nostri corrispettivi di ricerca deterministica su vari compiti di ragionamento matematico impegnativi. Utilizzando il nostro approccio, mostriamo che Qwen2.5-Math-1.5B-Instruct può superare l'accuratezza di GPT-4o in soli 4 rollouts, mentre Qwen2.5-Math-7B-Instruct raggiunge un'accuratezza di livello o1 in soli 32 rollouts. Il nostro lavoro non solo presenta un metodo efficace per il dimensionamento durante l'inferenza, ma collega anche la ricca letteratura sull'inferenza probabilistica con il dimensionamento durante l'inferenza dei LLM per sviluppare algoritmi più robusti in lavori futuri. Il codice e ulteriori informazioni sono disponibili su https://probabilistic-inference-scaling.github.io.
English
Large language models (LLMs) have achieved significant performance gains via
scaling up model sizes and/or data. However, recent evidence suggests
diminishing returns from such approaches, motivating scaling the computation
spent at inference time. Existing inference-time scaling methods, usually with
reward models, cast the task as a search problem, which tends to be vulnerable
to reward hacking as a consequence of approximation errors in reward models. In
this paper, we instead cast inference-time scaling as a probabilistic inference
task and leverage sampling-based techniques to explore the typical set of the
state distribution of a state-space model with an approximate likelihood,
rather than optimize for its mode directly. We propose a novel inference-time
scaling approach by adapting particle-based Monte Carlo methods to this task.
Our empirical evaluation demonstrates that our methods have a 4-16x better
scaling rate over our deterministic search counterparts on various challenging
mathematical reasoning tasks. Using our approach, we show that
Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts,
while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts.
Our work not only presents an effective method to inference-time scaling, but
also connects the rich literature in probabilistic inference with
inference-time scaling of LLMs to develop more robust algorithms in future
work. Code and further information is available at
https://probabilistic-inference-scaling.github.io.Summary
AI-Generated Summary