Een Probabilistische Inferentiebenadering voor Schaalvergroting van LLMs tijdens Inferentie met behulp van Deeltjesgebaseerde Monte Carlo Methoden
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
February 3, 2025
Auteurs: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben aanzienlijke prestatieverbeteringen behaald door de schaalvergroting van modelgroottes en/of gegevens. Echter, recent bewijs suggereert afnemende meeropbrengsten van dergelijke benaderingen, wat het schalen van de berekening tijdens inferentie rechtvaardigt. Bestaande methoden voor schalen tijdens inferentie, meestal met beloningsmodellen, stellen de taak voor als een zoekprobleem, wat kwetsbaar kan zijn voor beloningsmanipulatie als gevolg van benaderingsfouten in beloningsmodellen. In dit artikel stellen we in plaats daarvan schalen tijdens inferentie voor als een probabilistische inferentietaak en maken we gebruik van op steekproeven gebaseerde technieken om de typische set van de toestandsverdeling van een toestandsruimtemodel met een benaderde waarschijnlijkheid te verkennen, in plaats van rechtstreeks te optimaliseren voor de modus ervan. We stellen een nieuwe benadering voor schalen tijdens inferentie voor door deeltjesgebaseerde Monte Carlo-methoden aan te passen aan deze taak. Onze empirische evaluatie toont aan dat onze methoden een 4-16x beter schalingsniveau hebben ten opzichte van onze deterministische zoektegenhangers bij verschillende uitdagende wiskundige redeneertaken. Met behulp van onze benadering laten we zien dat Qwen2.5-Math-1.5B-Instruct GPT-4o nauwkeurigheid kan overtreffen met slechts 4 rollouts, terwijl Qwen2.5-Math-7B-Instruct schaalt naar o1-niveau nauwkeurigheid met slechts 32 rollouts. Ons werk presenteert niet alleen een effectieve methode voor schalen tijdens inferentie, maar verbindt ook de rijke literatuur in probabilistische inferentie met schalen tijdens inferentie van LLM's om robuustere algoritmen te ontwikkelen in toekomstig werk. Code en verdere informatie zijn beschikbaar op https://probabilistic-inference-scaling.github.io.
English
Large language models (LLMs) have achieved significant performance gains via
scaling up model sizes and/or data. However, recent evidence suggests
diminishing returns from such approaches, motivating scaling the computation
spent at inference time. Existing inference-time scaling methods, usually with
reward models, cast the task as a search problem, which tends to be vulnerable
to reward hacking as a consequence of approximation errors in reward models. In
this paper, we instead cast inference-time scaling as a probabilistic inference
task and leverage sampling-based techniques to explore the typical set of the
state distribution of a state-space model with an approximate likelihood,
rather than optimize for its mode directly. We propose a novel inference-time
scaling approach by adapting particle-based Monte Carlo methods to this task.
Our empirical evaluation demonstrates that our methods have a 4-16x better
scaling rate over our deterministic search counterparts on various challenging
mathematical reasoning tasks. Using our approach, we show that
Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts,
while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts.
Our work not only presents an effective method to inference-time scaling, but
also connects the rich literature in probabilistic inference with
inference-time scaling of LLMs to develop more robust algorithms in future
work. Code and further information is available at
https://probabilistic-inference-scaling.github.io.Summary
AI-Generated Summary