ChatPaper.aiChatPaper

Das optimale Skalieren der Testzeitberechnung von LLM kann effektiver sein als das Skalieren der Modellparameter.

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

August 6, 2024
Autoren: Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar
cs.AI

Zusammenfassung

Die Ermöglichung von LLMs, ihre Ausgaben durch eine erhöhte Testzeitberechnung zu verbessern, ist ein entscheidender Schritt hin zur Entwicklung allgemein selbstverbessernder Agenten, die in der Lage sind, in offenen natürlichen Sprachen zu operieren. In diesem Papier untersuchen wir das Skalieren der Inferenzzeitberechnung in LLMs mit dem Schwerpunkt auf der Beantwortung der Frage: Wenn einem LLM erlaubt wird, eine feste, aber nicht triviale Menge an Inferenzzeitberechnung zu nutzen, wie sehr kann es seine Leistung bei einer anspruchsvollen Eingabe verbessern? Die Beantwortung dieser Frage hat Auswirkungen nicht nur auf die erreichbare Leistung von LLMs, sondern auch auf die Zukunft des LLM-Vortrainings und wie man den Kompromiss zwischen Inferenzzeit- und Vor-Trainingsberechnung gestalten sollte. Trotz ihrer Bedeutung hat sich bisher wenig Forschung damit beschäftigt, das Skalierungsverhalten verschiedener Testzeit-Inferenzmethoden zu verstehen. Darüber hinaus liefert die aktuelle Arbeit größtenteils negative Ergebnisse für eine Reihe dieser Strategien. In dieser Arbeit analysieren wir zwei Hauptmechanismen zur Skalierung der Testzeitberechnung: (1) die Suche gegen dichte, prozessbasierte Verifizierungsbelohnungsmodelle; und (2) die Anpassung der Verteilung des Modells über eine Antwort adaptiv, basierend auf der Eingabe zur Testzeit. Wir stellen fest, dass in beiden Fällen die Wirksamkeit verschiedener Ansätze zur Skalierung der Testzeitberechnung entscheidend von der Schwierigkeit der Eingabe abhängt. Diese Beobachtung motiviert die Anwendung einer "rechenoptimalen" Skalierungsstrategie, die am effektivsten die Testzeitberechnung adaptiv pro Eingabe zuweist. Durch die Verwendung dieser rechenoptimalen Strategie können wir die Effizienz der Skalierung der Testzeitberechnung um mehr als das 4-fache im Vergleich zu einem Best-of-N-Baseline verbessern. Darüber hinaus stellen wir in einer FLOPs-angepassten Bewertung fest, dass bei Problemen, bei denen ein kleineres Basismodell etwas nicht triviale Erfolgsraten erreicht, die Testzeitberechnung verwendet werden kann, um ein 14-fach größeres Modell zu übertreffen.
English
Enabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In this paper, we study the scaling of inference-time computation in LLMs, with a focus on answering the question: if an LLM is allowed to use a fixed but non-trivial amount of inference-time compute, how much can it improve its performance on a challenging prompt? Answering this question has implications not only on the achievable performance of LLMs, but also on the future of LLM pretraining and how one should tradeoff inference-time and pre-training compute. Despite its importance, little research attempted to understand the scaling behaviors of various test-time inference methods. Moreover, current work largely provides negative results for a number of these strategies. In this work, we analyze two primary mechanisms to scale test-time computation: (1) searching against dense, process-based verifier reward models; and (2) updating the model's distribution over a response adaptively, given the prompt at test time. We find that in both cases, the effectiveness of different approaches to scaling test-time compute critically varies depending on the difficulty of the prompt. This observation motivates applying a "compute-optimal" scaling strategy, which acts to most effectively allocate test-time compute adaptively per prompt. Using this compute-optimal strategy, we can improve the efficiency of test-time compute scaling by more than 4x compared to a best-of-N baseline. Additionally, in a FLOPs-matched evaluation, we find that on problems where a smaller base model attains somewhat non-trivial success rates, test-time compute can be used to outperform a 14x larger model.

Summary

AI-Generated Summary

PDF633November 28, 2024