Un Approccio di Inferenza Probabilistica per la Scalabilità dei Modelli Linguistici a Livello di Inferenza utilizzando Metodi Monte Carlo basati su Particelle

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto significativi miglioramenti delle prestazioni attraverso l'aumento delle dimensioni del modello e/o dei dati. Tuttavia, recenti evidenze suggeriscono rendimenti decrescenti da tali approcci, spingendo verso il dimensionamento della computazione impiegata durante l'inferenza. I metodi esistenti di dimensionamento durante l'inferenza, di solito con modelli di ricompensa, considerano il compito come un problema di ricerca, che tende ad essere vulnerabile all'hacking della ricompensa a causa degli errori di approssimazione nei modelli di ricompensa. In questo articolo, invece, consideriamo il dimensionamento durante l'inferenza come un compito di inferenza probabilistica e sfruttiamo tecniche basate su campionamento per esplorare l'insieme tipico della distribuzione degli stati di un modello dello spazio degli stati con una verosimiglianza approssimata, piuttosto che ottimizzare direttamente il suo modo. Proponiamo un nuovo approccio al dimensionamento durante l'inferenza adattando metodi di Monte Carlo basati su particelle a questo compito. La nostra valutazione empirica dimostra che i nostri metodi hanno un tasso di dimensionamento 4-16 volte migliore rispetto ai nostri corrispettivi di ricerca deterministica su vari compiti di ragionamento matematico impegnativi. Utilizzando il nostro approccio, mostriamo che Qwen2.5-Math-1.5B-Instruct può superare l'accuratezza di GPT-4o in soli 4 rollouts, mentre Qwen2.5-Math-7B-Instruct raggiunge un'accuratezza di livello o1 in soli 32 rollouts. Il nostro lavoro non solo presenta un metodo efficace per il dimensionamento durante l'inferenza, ma collega anche la ricca letteratura sull'inferenza probabilistica con il dimensionamento durante l'inferenza dei LLM per sviluppare algoritmi più robusti in lavori futuri. Il codice e ulteriori informazioni sono disponibili su https://probabilistic-inference-scaling.github.io.

English

Large language models (LLMs) have achieved significant performance gains via scaling up model sizes and/or data. However, recent evidence suggests diminishing returns from such approaches, motivating scaling the computation spent at inference time. Existing inference-time scaling methods, usually with reward models, cast the task as a search problem, which tends to be vulnerable to reward hacking as a consequence of approximation errors in reward models. In this paper, we instead cast inference-time scaling as a probabilistic inference task and leverage sampling-based techniques to explore the typical set of the state distribution of a state-space model with an approximate likelihood, rather than optimize for its mode directly. We propose a novel inference-time scaling approach by adapting particle-based Monte Carlo methods to this task. Our empirical evaluation demonstrates that our methods have a 4-16x better scaling rate over our deterministic search counterparts on various challenging mathematical reasoning tasks. Using our approach, we show that Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts, while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts. Our work not only presents an effective method to inference-time scaling, but also connects the rich literature in probabilistic inference with inference-time scaling of LLMs to develop more robust algorithms in future work. Code and further information is available at https://probabilistic-inference-scaling.github.io.

Un Approccio di Inferenza Probabilistica per la Scalabilità dei Modelli Linguistici a Livello di Inferenza utilizzando Metodi Monte Carlo basati su Particelle

A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Abstract

Support