Beobachtbare Skalengesetze und die Vorhersagbarkeit der Leistung von Sprachmodellen
Observational Scaling Laws and the Predictability of Language Model Performance
May 17, 2024
Autoren: Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto
cs.AI
Zusammenfassung
Das Verständnis, wie sich die Leistung von Sprachmodellen mit der Skalierung verändert, ist entscheidend für Benchmarking und Algorithmusentwicklung. Skalierungsgesetze sind ein Ansatz, um dieses Verständnis aufzubauen, aber die Notwendigkeit, Modelle über viele verschiedene Skalen hinweg zu trainieren, hat ihren Einsatz begrenzt. Wir schlagen einen alternativen, beobachtenden Ansatz vor, der das Modelltraining umgeht und stattdessen Skalierungsgesetze aus etwa 80 öffentlich verfügbaren Modellen erstellt. Das Erstellen eines einzigen Skalierungsgesetzes aus mehreren Modellfamilien ist aufgrund großer Variationen in ihren Trainingseffizienzen und -fähigkeiten herausfordernd. Wir zeigen jedoch, dass diese Variationen mit einem einfachen, verallgemeinerten Skalierungsgesetz übereinstimmen, bei dem die Leistung von Sprachmodellen eine Funktion eines niederdimensionalen Fähigkeitsraums ist und Modellfamilien sich nur in ihrer Effizienz bei der Umwandlung von Trainingsberechnungen in Fähigkeiten unterscheiden. Mit diesem Ansatz zeigen wir die überraschende Vorhersagbarkeit komplexer Skalierungsphänomene: Wir zeigen, dass mehrere emergente Phänomene ein gleichmäßiges, sigmoidales Verhalten aufweisen und von kleinen Modellen vorhersehbar sind; wir zeigen, dass die Agentenleistung von Modellen wie GPT-4 präzise von einfacheren nicht-agentischen Benchmarks vorhergesagt werden kann; und wir zeigen, wie man den Einfluss von post-training Interventionen wie Chain-of-Thought und Selbstkonsistenz vorhersagen kann, während sich die Fähigkeiten von Sprachmodellen weiter verbessern.
English
Understanding how language model performance varies with scale is critical to
benchmark and algorithm development. Scaling laws are one approach to building
this understanding, but the requirement of training models across many
different scales has limited their use. We propose an alternative,
observational approach that bypasses model training and instead builds scaling
laws from ~80 publically available models. Building a single scaling law from
multiple model families is challenging due to large variations in their
training compute efficiencies and capabilities. However, we show that these
variations are consistent with a simple, generalized scaling law where language
model performance is a function of a low-dimensional capability space, and
model families only vary in their efficiency in converting training compute to
capabilities. Using this approach, we show the surprising predictability of
complex scaling phenomena: we show that several emergent phenomena follow a
smooth, sigmoidal behavior and are predictable from small models; we show that
the agent performance of models such as GPT-4 can be precisely predicted from
simpler non-agentic benchmarks; and we show how to predict the impact of
post-training interventions like Chain-of-Thought and Self-Consistency as
language model capabilities continue to improve.Summary
AI-Generated Summary