Modèle de Démence : Les Données Générées Font Oublier les Modèles
Model Dementia: Generated Data Makes Models Forget
May 27, 2023
Auteurs: Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson
cs.AI
Résumé
Stable Diffusion a révolutionné la création d'images à partir de texte descriptif. GPT-2, GPT-3(.5) et GPT-4 ont démontré des performances impressionnantes dans une variété de tâches linguistiques. ChatGPT a introduit ces modèles de langage au grand public. Il est désormais évident que les grands modèles de langage (LLMs) sont là pour rester et qu'ils entraîneront des changements radicaux dans l'ensemble de l'écosystème du texte et des images en ligne. Dans cet article, nous examinons ce que l'avenir pourrait réserver. Que deviendra GPT-{n} une fois que les LLMs contribueront à une grande partie du langage trouvé en ligne ? Nous constatons que l'utilisation de contenu généré par des modèles dans l'entraînement provoque des défauts irréversibles dans les modèles résultants, où les queues de la distribution originale du contenu disparaissent. Nous appelons cet effet la démence des modèles et montrons qu'il peut survenir dans les autoencodeurs variationnels (VAEs), les modèles de mélange gaussiens (GMMs) et les LLMs. Nous développons une intuition théorique derrière ce phénomène et illustrons son ubiquité parmi tous les modèles génératifs appris. Nous démontrons qu'il doit être pris au sérieux si nous voulons maintenir les avantages de l'entraînement à partir de données massives extraites du web. En effet, la valeur des données collectées sur les interactions authentiques des humains avec les systèmes sera de plus en plus précieuse en présence de contenu généré par les LLMs dans les données extraites d'Internet.
English
Stable Diffusion revolutionised image creation from descriptive text. GPT-2,
GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of
language tasks. ChatGPT introduced such language models to the general public.
It is now clear that large language models (LLMs) are here to stay, and will
bring about drastic change in the whole ecosystem of online text and images. In
this paper we consider what the future might hold. What will happen to GPT-{n}
once LLMs contribute much of the language found online? We find that use of
model-generated content in training causes irreversible defects in the
resulting models, where tails of the original content distribution disappear.
We call this effect model dementia and show that it can occur in Variational
Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build
theoretical intuition behind the phenomenon and portray its ubiquity amongst
all learned generative models. We demonstrate that it has to be taken seriously
if we are to sustain the benefits of training from large-scale data scraped
from the web. Indeed, the value of data collected about genuine human
interactions with systems will be increasingly valuable in the presence of
content generated by LLMs in data crawled from the Internet.