Una storia di code: il collasso del modello come cambiamento delle leggi di scala
A Tale of Tails: Model Collapse as a Change of Scaling Laws
February 10, 2024
Autori: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI
Abstract
Con l'aumentare delle dimensioni dei modelli di intelligenza artificiale, le leggi di scala neurale sono diventate uno strumento cruciale per prevedere i miglioramenti dei modelli di grandi dimensioni quando si incrementano la capacità e la dimensione dei dati di addestramento originali (umani o naturali). Tuttavia, l'uso diffuso di modelli popolari significa che l'ecosistema di dati e testi online co-evolverà per contenere progressivamente quantità crescenti di dati sintetizzati. In questo articolo ci chiediamo: come cambieranno le leggi di scala nel regime inevitabile in cui i dati sintetici entrano a far parte del corpus di addestramento? I modelli futuri continueranno a migliorare, o saranno destinati a degenerare fino al collasso totale (del modello)? Sviluppiamo un quadro teorico del collasso del modello attraverso la lente delle leggi di scala. Scopriamo una vasta gamma di fenomeni di decadimento, analizzando la perdita di scala, lo spostamento della scala con il numero di generazioni, il "disapprendimento" delle competenze e il grokking quando si mescolano dati umani e sintetizzati. La nostra teoria è validata da esperimenti su larga scala con un trasformatore su un compito aritmetico e sulla generazione di testo utilizzando il modello di linguaggio di grandi dimensioni Llama2.
English
As AI model size grows, neural scaling laws have become a crucial tool to
predict the improvements of large models when increasing capacity and the size
of original (human or natural) training data. Yet, the widespread use of
popular models means that the ecosystem of online data and text will co-evolve
to progressively contain increased amounts of synthesized data. In this paper
we ask: How will the scaling laws change in the inevitable regime where
synthetic data makes its way into the training corpus? Will future models,
still improve, or be doomed to degenerate up to total (model) collapse? We
develop a theoretical framework of model collapse through the lens of scaling
laws. We discover a wide range of decay phenomena, analyzing loss of scaling,
shifted scaling with number of generations, the ''un-learning" of skills, and
grokking when mixing human and synthesized data. Our theory is validated by
large-scale experiments with a transformer on an arithmetic task and text
generation using the large language model Llama2.