Een verhaal van staarten: Modelcollaps als een verandering in schaalwetten
A Tale of Tails: Model Collapse as a Change of Scaling Laws
February 10, 2024
Auteurs: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI
Samenvatting
Naarmate de grootte van AI-modellen toeneemt, zijn neurale schaalwetten een cruciaal hulpmiddel geworden om de verbeteringen van grote modellen te voorspellen bij het vergroten van de capaciteit en de omvang van de originele (menselijke of natuurlijke) trainingsdata. Het wijdverbreide gebruik van populaire modellen betekent echter dat het ecosysteem van online data en tekst zal co-evolueren om geleidelijk aan steeds meer gesynthetiseerde data te bevatten. In dit artikel stellen we de vraag: Hoe zullen de schaalwetten veranderen in het onvermijdelijke regime waar synthetische data deel uitmaakt van de trainingscorpus? Zullen toekomstige modellen nog steeds verbeteren, of zijn ze gedoemd te degenereren tot volledige (model) ineenstorting? We ontwikkelen een theoretisch kader voor modelineenstorting door de lens van schaalwetten. We ontdekken een breed scala aan vervalfenomenen, analyseren het verlies van schaling, verschoven schaling met het aantal generaties, het "ontleren" van vaardigheden, en grokking bij het mengen van menselijke en gesynthetiseerde data. Onze theorie wordt gevalideerd door grootschalige experimenten met een transformer op een rekenkundige taak en tekstgeneratie met behulp van het grote taalmodel Llama2.
English
As AI model size grows, neural scaling laws have become a crucial tool to
predict the improvements of large models when increasing capacity and the size
of original (human or natural) training data. Yet, the widespread use of
popular models means that the ecosystem of online data and text will co-evolve
to progressively contain increased amounts of synthesized data. In this paper
we ask: How will the scaling laws change in the inevitable regime where
synthetic data makes its way into the training corpus? Will future models,
still improve, or be doomed to degenerate up to total (model) collapse? We
develop a theoretical framework of model collapse through the lens of scaling
laws. We discover a wide range of decay phenomena, analyzing loss of scaling,
shifted scaling with number of generations, the ''un-learning" of skills, and
grokking when mixing human and synthesized data. Our theory is validated by
large-scale experiments with a transformer on an arithmetic task and text
generation using the large language model Llama2.