Une histoire de queues : L'effondrement des modèles comme changement des lois d'échelle
A Tale of Tails: Model Collapse as a Change of Scaling Laws
February 10, 2024
Auteurs: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI
Résumé
À mesure que la taille des modèles d'IA augmente, les lois d'échelle neuronales sont devenues un outil crucial pour prédire les améliorations des grands modèles lors de l'augmentation de leur capacité et de la taille des données d'entraînement originales (humaines ou naturelles). Cependant, l'utilisation généralisée de modèles populaires signifie que l'écosystème des données et textes en ligne co-évoluera pour contenir progressivement des quantités croissantes de données synthétisées. Dans cet article, nous posons la question suivante : Comment les lois d'échelle changeront-elles dans le régime inévitable où les données synthétiques s'intègrent au corpus d'entraînement ? Les futurs modèles continueront-ils à s'améliorer, ou seront-ils condamnés à dégénérer jusqu'à un effondrement total (du modèle) ? Nous développons un cadre théorique de l'effondrement des modèles à travers le prisme des lois d'échelle. Nous découvrons une large gamme de phénomènes de dégradation, analysant la perte d'échelle, le décalage d'échelle avec le nombre de générations, le « désapprentissage » des compétences, et le phénomène de "grokking" lors du mélange de données humaines et synthétisées. Notre théorie est validée par des expériences à grande échelle avec un transformateur sur une tâche arithmétique et la génération de texte utilisant le grand modèle de langage Llama2.
English
As AI model size grows, neural scaling laws have become a crucial tool to
predict the improvements of large models when increasing capacity and the size
of original (human or natural) training data. Yet, the widespread use of
popular models means that the ecosystem of online data and text will co-evolve
to progressively contain increased amounts of synthesized data. In this paper
we ask: How will the scaling laws change in the inevitable regime where
synthetic data makes its way into the training corpus? Will future models,
still improve, or be doomed to degenerate up to total (model) collapse? We
develop a theoretical framework of model collapse through the lens of scaling
laws. We discover a wide range of decay phenomena, analyzing loss of scaling,
shifted scaling with number of generations, the ''un-learning" of skills, and
grokking when mixing human and synthesized data. Our theory is validated by
large-scale experiments with a transformer on an arithmetic task and text
generation using the large language model Llama2.