ChatPaper.aiChatPaper

Beobachtbare Skalengesetze und die Vorhersagbarkeit der Leistung von Sprachmodellen

Observational Scaling Laws and the Predictability of Language Model Performance

May 17, 2024
Autoren: Yangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto
cs.AI

Zusammenfassung

Das Verständnis, wie sich die Leistung von Sprachmodellen mit der Skalierung verändert, ist entscheidend für Benchmarking und Algorithmusentwicklung. Skalierungsgesetze sind ein Ansatz, um dieses Verständnis aufzubauen, aber die Notwendigkeit, Modelle über viele verschiedene Skalen hinweg zu trainieren, hat ihren Einsatz begrenzt. Wir schlagen einen alternativen, beobachtenden Ansatz vor, der das Modelltraining umgeht und stattdessen Skalierungsgesetze aus etwa 80 öffentlich verfügbaren Modellen erstellt. Das Erstellen eines einzigen Skalierungsgesetzes aus mehreren Modellfamilien ist aufgrund großer Variationen in ihren Trainingseffizienzen und -fähigkeiten herausfordernd. Wir zeigen jedoch, dass diese Variationen mit einem einfachen, verallgemeinerten Skalierungsgesetz übereinstimmen, bei dem die Leistung von Sprachmodellen eine Funktion eines niederdimensionalen Fähigkeitsraums ist und Modellfamilien sich nur in ihrer Effizienz bei der Umwandlung von Trainingsberechnungen in Fähigkeiten unterscheiden. Mit diesem Ansatz zeigen wir die überraschende Vorhersagbarkeit komplexer Skalierungsphänomene: Wir zeigen, dass mehrere emergente Phänomene ein gleichmäßiges, sigmoidales Verhalten aufweisen und von kleinen Modellen vorhersehbar sind; wir zeigen, dass die Agentenleistung von Modellen wie GPT-4 präzise von einfacheren nicht-agentischen Benchmarks vorhergesagt werden kann; und wir zeigen, wie man den Einfluss von post-training Interventionen wie Chain-of-Thought und Selbstkonsistenz vorhersagen kann, während sich die Fähigkeiten von Sprachmodellen weiter verbessern.
English
Understanding how language model performance varies with scale is critical to benchmark and algorithm development. Scaling laws are one approach to building this understanding, but the requirement of training models across many different scales has limited their use. We propose an alternative, observational approach that bypasses model training and instead builds scaling laws from ~80 publically available models. Building a single scaling law from multiple model families is challenging due to large variations in their training compute efficiencies and capabilities. However, we show that these variations are consistent with a simple, generalized scaling law where language model performance is a function of a low-dimensional capability space, and model families only vary in their efficiency in converting training compute to capabilities. Using this approach, we show the surprising predictability of complex scaling phenomena: we show that several emergent phenomena follow a smooth, sigmoidal behavior and are predictable from small models; we show that the agent performance of models such as GPT-4 can be precisely predicted from simpler non-agentic benchmarks; and we show how to predict the impact of post-training interventions like Chain-of-Thought and Self-Consistency as language model capabilities continue to improve.

Summary

AI-Generated Summary

PDF141December 15, 2024