Een verhaal van staarten: Modelcollaps als een verandering in schaalwetten

Samenvatting

Naarmate de grootte van AI-modellen toeneemt, zijn neurale schaalwetten een cruciaal hulpmiddel geworden om de verbeteringen van grote modellen te voorspellen bij het vergroten van de capaciteit en de omvang van de originele (menselijke of natuurlijke) trainingsdata. Het wijdverbreide gebruik van populaire modellen betekent echter dat het ecosysteem van online data en tekst zal co-evolueren om geleidelijk aan steeds meer gesynthetiseerde data te bevatten. In dit artikel stellen we de vraag: Hoe zullen de schaalwetten veranderen in het onvermijdelijke regime waar synthetische data deel uitmaakt van de trainingscorpus? Zullen toekomstige modellen nog steeds verbeteren, of zijn ze gedoemd te degenereren tot volledige (model) ineenstorting? We ontwikkelen een theoretisch kader voor modelineenstorting door de lens van schaalwetten. We ontdekken een breed scala aan vervalfenomenen, analyseren het verlies van schaling, verschoven schaling met het aantal generaties, het "ontleren" van vaardigheden, en grokking bij het mengen van menselijke en gesynthetiseerde data. Onze theorie wordt gevalideerd door grootschalige experimenten met een transformer op een rekenkundige taak en tekstgeneratie met behulp van het grote taalmodel Llama2.

English

As AI model size grows, neural scaling laws have become a crucial tool to predict the improvements of large models when increasing capacity and the size of original (human or natural) training data. Yet, the widespread use of popular models means that the ecosystem of online data and text will co-evolve to progressively contain increased amounts of synthesized data. In this paper we ask: How will the scaling laws change in the inevitable regime where synthetic data makes its way into the training corpus? Will future models, still improve, or be doomed to degenerate up to total (model) collapse? We develop a theoretical framework of model collapse through the lens of scaling laws. We discover a wide range of decay phenomena, analyzing loss of scaling, shifted scaling with number of generations, the ''un-learning" of skills, and grokking when mixing human and synthesized data. Our theory is validated by large-scale experiments with a transformer on an arithmetic task and text generation using the large language model Llama2.

Een verhaal van staarten: Modelcollaps als een verandering in schaalwetten

A Tale of Tails: Model Collapse as a Change of Scaling Laws

Samenvatting

Support