ChatPaper.aiChatPaper

Eine Geschichte der Verteilungsenden: Modellkollaps als Veränderung der Skalierungsgesetze

A Tale of Tails: Model Collapse as a Change of Scaling Laws

February 10, 2024
Autoren: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI

Zusammenfassung

Mit zunehmender Größe von KI-Modellen sind neuronale Skalierungsgesetze zu einem entscheidenden Werkzeug geworden, um die Verbesserungen großer Modelle bei der Erhöhung der Kapazität und der Größe der ursprünglichen (menschlichen oder natürlichen) Trainingsdaten vorherzusagen. Doch die weit verbreitete Nutzung populärer Modelle bedeutet, dass das Ökosystem der Online-Daten und Texte sich mitentwickeln wird, um zunehmend größere Mengen an synthetisierten Daten zu enthalten. In diesem Artikel stellen wir die Frage: Wie werden sich die Skalierungsgesetze in dem unvermeidlichen Regime ändern, in dem synthetische Daten ihren Weg in das Trainingskorpus finden? Werden zukünftige Modelle weiterhin Fortschritte machen oder dazu verdammt sein, bis zum vollständigen (Modell-)Kollaps zu degenerieren? Wir entwickeln einen theoretischen Rahmen für den Modellkollaps durch die Linse der Skalierungsgesetze. Wir entdecken eine breite Palette von Zerfallsphänomenen, analysieren den Verlust der Skalierung, verschobene Skalierung mit der Anzahl der Generationen, das „Verlernen“ von Fähigkeiten und das „Grokking“ bei der Vermischung von menschlichen und synthetisierten Daten. Unsere Theorie wird durch groß angelegte Experimente mit einem Transformer bei einer arithmetischen Aufgabe und Textgenerierung unter Verwendung des großen Sprachmodells Llama2 validiert.
English
As AI model size grows, neural scaling laws have become a crucial tool to predict the improvements of large models when increasing capacity and the size of original (human or natural) training data. Yet, the widespread use of popular models means that the ecosystem of online data and text will co-evolve to progressively contain increased amounts of synthesized data. In this paper we ask: How will the scaling laws change in the inevitable regime where synthetic data makes its way into the training corpus? Will future models, still improve, or be doomed to degenerate up to total (model) collapse? We develop a theoretical framework of model collapse through the lens of scaling laws. We discover a wide range of decay phenomena, analyzing loss of scaling, shifted scaling with number of generations, the ''un-learning" of skills, and grokking when mixing human and synthesized data. Our theory is validated by large-scale experiments with a transformer on an arithmetic task and text generation using the large language model Llama2.
PDF161December 15, 2024