Das optimale Skalieren der Testzeitberechnung von LLM kann effektiver sein als das Skalieren der Modellparameter.Scaling LLM Test-Time Compute Optimally can be More Effective than
Scaling Model Parameters
Die Ermöglichung von LLMs, ihre Ausgaben durch eine erhöhte Testzeitberechnung zu verbessern, ist ein entscheidender Schritt hin zur Entwicklung allgemein selbstverbessernder Agenten, die in der Lage sind, in offenen natürlichen Sprachen zu operieren. In diesem Papier untersuchen wir das Skalieren der Inferenzzeitberechnung in LLMs mit dem Schwerpunkt auf der Beantwortung der Frage: Wenn einem LLM erlaubt wird, eine feste, aber nicht triviale Menge an Inferenzzeitberechnung zu nutzen, wie sehr kann es seine Leistung bei einer anspruchsvollen Eingabe verbessern? Die Beantwortung dieser Frage hat Auswirkungen nicht nur auf die erreichbare Leistung von LLMs, sondern auch auf die Zukunft des LLM-Vortrainings und wie man den Kompromiss zwischen Inferenzzeit- und Vor-Trainingsberechnung gestalten sollte. Trotz ihrer Bedeutung hat sich bisher wenig Forschung damit beschäftigt, das Skalierungsverhalten verschiedener Testzeit-Inferenzmethoden zu verstehen. Darüber hinaus liefert die aktuelle Arbeit größtenteils negative Ergebnisse für eine Reihe dieser Strategien. In dieser Arbeit analysieren wir zwei Hauptmechanismen zur Skalierung der Testzeitberechnung: (1) die Suche gegen dichte, prozessbasierte Verifizierungsbelohnungsmodelle; und (2) die Anpassung der Verteilung des Modells über eine Antwort adaptiv, basierend auf der Eingabe zur Testzeit. Wir stellen fest, dass in beiden Fällen die Wirksamkeit verschiedener Ansätze zur Skalierung der Testzeitberechnung entscheidend von der Schwierigkeit der Eingabe abhängt. Diese Beobachtung motiviert die Anwendung einer "rechenoptimalen" Skalierungsstrategie, die am effektivsten die Testzeitberechnung adaptiv pro Eingabe zuweist. Durch die Verwendung dieser rechenoptimalen Strategie können wir die Effizienz der Skalierung der Testzeitberechnung um mehr als das 4-fache im Vergleich zu einem Best-of-N-Baseline verbessern. Darüber hinaus stellen wir in einer FLOPs-angepassten Bewertung fest, dass bei Problemen, bei denen ein kleineres Basismodell etwas nicht triviale Erfolgsraten erreicht, die Testzeitberechnung verwendet werden kann, um ein 14-fach größeres Modell zu übertreffen.