Vorhersage von aufkommenden Fähigkeiten durch Feinabstimmung
Predicting Emergent Capabilities by Finetuning
November 25, 2024
Autoren: Charlie Snell, Eric Wallace, Dan Klein, Sergey Levine
cs.AI
Zusammenfassung
Eine grundlegende offene Herausforderung beim Skalieren moderner LLMs ist das mangelnde Verständnis um aufkommende Fähigkeiten. Insbesondere ist bekannt, dass der Vorverlust beim Sprachmodelltraining stark vorhersagbar ist als Funktion der Rechenleistung. Die nachgelagerten Fähigkeiten sind jedoch weit weniger vorhersehbar - manchmal zeigen sie sogar aufkommende Sprünge -, was es schwierig macht, die Fähigkeiten zukünftiger Modelle zu antizipieren. In dieser Arbeit stellen wir zunächst die Aufgabe der Vorhersage von Emergenz: Unter der Voraussetzung, dass aktuelle LLMs zufällige Few-Shot-Genauigkeit bei einer Aufgabe aufweisen, können wir vorhersagen, ob zukünftige Modelle (GPT-N+1) eine nicht-triviale Genauigkeit bei dieser Aufgabe haben werden? Wir entdecken dann einen einfachen Einblick für dieses Problem: Das Feintuning von LLMs auf eine bestimmte Aufgabe kann den Punkt im Skalieren verschieben, an dem die Emergenz bei weniger leistungsfähigen Modellen auftritt. Um diesen Einblick zu operationalisieren, können wir LLMs mit unterschiedlichen Datenmengen feintunen und eine parametrische Funktion anpassen, die vorhersagt, wann die Emergenz auftritt (d. h. "Emergenzgesetze"). Wir validieren diesen Ansatz anhand von vier Standard-NLP-Benchmarks, bei denen bereits groß angelegte Open-Source-LLMs Emergenz zeigen (MMLU, GSM8K, CommonsenseQA und CoLA). Unter Verwendung nur kleiner LLMs können wir in einigen Fällen genau vorhersagen, ob Modelle, die mit bis zu 4x mehr Rechenleistung trainiert wurden, aufgetaucht sind. Abschließend präsentieren wir eine Fallstudie zu zwei realistischen Anwendungen für die Vorhersage von Emergenz.
English
A fundamental open challenge in modern LLM scaling is the lack of
understanding around emergent capabilities. In particular, language model
pretraining loss is known to be highly predictable as a function of compute.
However, downstream capabilities are far less predictable -- sometimes even
exhibiting emergent jumps -- which makes it challenging to anticipate the
capabilities of future models. In this work, we first pose the task of
emergence prediction: given access to current LLMs that have random few-shot
accuracy on a task, can we predict whether future models (GPT-N+1) will have
non-trivial accuracy on that task? We then discover a simple insight for this
problem: finetuning LLMs on a given task can shift the point in scaling at
which emergence occurs towards less capable models. To operationalize this
insight, we can finetune LLMs with varying amounts of data and fit a parametric
function that predicts when emergence will occur (i.e., "emergence laws"). We
validate this approach using four standard NLP benchmarks where large-scale
open-source LLMs already demonstrate emergence (MMLU, GSM8K, CommonsenseQA, and
CoLA). Using only small-scale LLMs, we find that, in some cases, we can
accurately predict whether models trained with up to 4x more compute have
emerged. Finally, we present a case study of two realistic uses for emergence
prediction.Summary
AI-Generated Summary