Ein probabilistischer Inferenzansatz zur Skalierung von LLMs zur Inferenzzeit unter Verwendung von partikelbasierten Monte-Carlo-Methoden.
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods
February 3, 2025
Autoren: Isha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben signifikante Leistungssteigerungen durch die Skalierung der Modellgrößen und/oder der Daten erzielt. Allerdings legen jüngste Erkenntnisse nahe, dass solche Ansätze abnehmende Erträge bringen, was die Skalierung der Rechenleistung zur Inferenzzeit motiviert. Bestehende Methoden zur Skalierung zur Inferenzzeit, die in der Regel mit Belohnungsmodellen arbeiten, stellen die Aufgabe als ein Suchproblem dar, das anfällig für Belohnungsumgehungen ist, die auf Approximationsfehlern in den Belohnungsmodellen beruhen. In diesem Paper betrachten wir die Skalierung zur Inferenzzeit stattdessen als eine probabilistische Inferenzaufgabe und nutzen techniken basierend auf Stichproben, um den typischen Satz der Zustandsverteilung eines Zustandsraummodells mit einer approximativen Wahrscheinlichkeit zu erkunden, anstatt direkt auf dessen Modus zu optimieren. Wir schlagen einen neuartigen Ansatz zur Skalierung zur Inferenzzeit vor, indem wir partikelbasierte Monte-Carlo-Methoden an diese Aufgabe anpassen. Unsere empirische Bewertung zeigt, dass unsere Methoden eine 4-16-fach bessere Skalierungsrate im Vergleich zu unseren deterministischen Suchgegenstücken bei verschiedenen anspruchsvollen mathematischen Denkaufgaben aufweisen. Unter Verwendung unseres Ansatzes zeigen wir, dass Qwen2.5-Math-1.5B-Instruct die Genauigkeit von GPT-4o bereits nach nur 4 Durchläufen übertreffen kann, während Qwen2.5-Math-7B-Instruct bereits nach nur 32 Durchläufen auf Genauigkeitsebene o1 skaliert. Unsere Arbeit präsentiert nicht nur eine effektive Methode zur Skalierung zur Inferenzzeit, sondern verknüpft auch die umfangreiche Literatur zur probabilistischen Inferenz mit der Skalierung zur Inferenzzeit von LLMs, um in zukünftigen Arbeiten robustere Algorithmen zu entwickeln. Der Code und weitere Informationen sind unter https://probabilistic-inference-scaling.github.io verfügbar.
English
Large language models (LLMs) have achieved significant performance gains via
scaling up model sizes and/or data. However, recent evidence suggests
diminishing returns from such approaches, motivating scaling the computation
spent at inference time. Existing inference-time scaling methods, usually with
reward models, cast the task as a search problem, which tends to be vulnerable
to reward hacking as a consequence of approximation errors in reward models. In
this paper, we instead cast inference-time scaling as a probabilistic inference
task and leverage sampling-based techniques to explore the typical set of the
state distribution of a state-space model with an approximate likelihood,
rather than optimize for its mode directly. We propose a novel inference-time
scaling approach by adapting particle-based Monte Carlo methods to this task.
Our empirical evaluation demonstrates that our methods have a 4-16x better
scaling rate over our deterministic search counterparts on various challenging
mathematical reasoning tasks. Using our approach, we show that
Qwen2.5-Math-1.5B-Instruct can surpass GPT-4o accuracy in only 4 rollouts,
while Qwen2.5-Math-7B-Instruct scales to o1 level accuracy in only 32 rollouts.
Our work not only presents an effective method to inference-time scaling, but
also connects the rich literature in probabilistic inference with
inference-time scaling of LLMs to develop more robust algorithms in future
work. Code and further information is available at
https://probabilistic-inference-scaling.github.io.Summary
AI-Generated Summary