Une approche d'inférence probabiliste pour l'adaptation à l'échelle des LLMs au moment de l'inférence en utilisant des méthodes de Monte Carlo basées sur les particules.
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
February 3, 2025
Auteurs: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont obtenu des gains de performance significatifs en augmentant la taille des modèles et/ou des données. Cependant, des preuves récentes suggèrent des rendements décroissants de telles approches, ce qui motive à augmenter la puissance de calcul allouée au moment de l'inférence. Les méthodes existantes d'ajustement au moment de l'inférence, généralement basées sur des modèles de récompense, considèrent la tâche comme un problème de recherche, ce qui les rend vulnérables aux manipulations de récompense dues aux erreurs d'approximation des modèles de récompense. Dans cet article, nous considérons plutôt l'ajustement au moment de l'inférence comme une tâche d'inférence probabiliste et utilisons des techniques basées sur l'échantillonnage pour explorer l'ensemble typique de la distribution d'états d'un modèle d'espace d'états avec une vraisemblance approximative, plutôt que d'optimiser directement pour son mode. Nous proposons une nouvelle approche d'ajustement au moment de l'inférence en adaptant des méthodes de Monte Carlo basées sur les particules à cette tâche. Notre évaluation empirique démontre que nos méthodes ont un taux d'ajustement 4 à 16 fois supérieur à celui de nos homologues de recherche déterministes sur diverses tâches complexes de raisonnement mathématique. En utilisant notre approche, nous montrons que Qwen2.5-Math-1.5B-Instruct peut dépasser la précision de GPT-4o en seulement 4 itérations, tandis que Qwen2.5-Math-7B-Instruct atteint une précision de niveau o1 en seulement 32 itérations. Notre travail présente non seulement une méthode efficace d'ajustement au moment de l'inférence, mais relie également la riche littérature en inférence probabiliste à l'ajustement au moment de l'inférence des LLMs pour développer des algorithmes plus robustes dans les travaux futurs. Le code et des informations supplémentaires sont disponibles sur https://probabilistic-inference-scaling.github.io.
English
Large language models (LLMs) have achieved significant performance gains via
scaling up model sizes and/or data. However, recent evidence suggests
diminishing returns from such approaches, motivating scaling the computation
spent at inference time. Existing inference-time scaling methods, usually with
reward models, cast the task as a search problem, which tends to be vulnerable
to reward hacking as a consequence of approximation errors in reward models. In
this paper, we instead cast inference-time scaling as a probabilistic inference
task and leverage sampling-based techniques to explore the typical set of the
state distribution of a state-space model with an approximate likelihood,
rather than optimize for its mode directly. We propose a novel inference-time
scaling approach by adapting particle-based Monte Carlo methods to this task.
Our empirical evaluation demonstrates that our methods have a 4-16x better
scaling rate over our deterministic search counterparts on various challenging
mathematical reasoning tasks. Using our approach, we show that
Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts,
while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts.
Our work not only presents an effective method to inference-time scaling, but
also connects the rich literature in probabilistic inference with
inference-time scaling of LLMs to develop more robust algorithms in future
work. Code and further information is available at
https://probabilistic-inference-scaling.github.io.Summary
AI-Generated Summary