Modell-Demenz: Generierte Daten lassen Modelle vergessen
Model Dementia: Generated Data Makes Models Forget
May 27, 2023
Autoren: Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson
cs.AI
Zusammenfassung
Stable Diffusion revolutionierte die Erstellung von Bildern aus beschreibendem Text. GPT-2, GPT-3(.5) und GPT-4 zeigten beeindruckende Leistungen bei einer Vielzahl von Sprachaufgaben. ChatGPT führte solche Sprachmodelle der breiten Öffentlichkeit vor. Es ist nun klar, dass große Sprachmodelle (LLMs) hier bleiben werden und drastische Veränderungen im gesamten Ökosystem von Online-Texten und Bildern bewirken werden. In diesem Beitrag betrachten wir, was die Zukunft bringen könnte. Was wird mit GPT-{n} geschehen, sobald LLMs einen Großteil der im Internet verfügbaren Sprache beitragen? Wir stellen fest, dass die Verwendung von modellgenerierten Inhalten im Training irreversible Defekte in den resultierenden Modellen verursacht, bei denen die Randbereiche der ursprünglichen Inhaltsverteilung verschwinden. Wir bezeichnen diesen Effekt als Modell-Demenz und zeigen, dass er in Variational Autoencodern (VAEs), Gaussian Mixture Models (GMMs) und LLMs auftreten kann. Wir entwickeln eine theoretische Intuition hinter diesem Phänomen und verdeutlichen seine Allgegenwart bei allen gelernten generativen Modellen. Wir demonstrieren, dass es ernst genommen werden muss, wenn wir die Vorteile des Trainings mit großflächig aus dem Web gesammelten Daten erhalten wollen. Tatsächlich wird der Wert von Daten, die über echte menschliche Interaktionen mit Systemen gesammelt werden, in Anwesenheit von durch LLMs generierten Inhalten in aus dem Internet gecrawlten Daten zunehmend wertvoll sein.
English
Stable Diffusion revolutionised image creation from descriptive text. GPT-2,
GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of
language tasks. ChatGPT introduced such language models to the general public.
It is now clear that large language models (LLMs) are here to stay, and will
bring about drastic change in the whole ecosystem of online text and images. In
this paper we consider what the future might hold. What will happen to GPT-{n}
once LLMs contribute much of the language found online? We find that use of
model-generated content in training causes irreversible defects in the
resulting models, where tails of the original content distribution disappear.
We call this effect model dementia and show that it can occur in Variational
Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build
theoretical intuition behind the phenomenon and portray its ubiquity amongst
all learned generative models. We demonstrate that it has to be taken seriously
if we are to sustain the benefits of training from large-scale data scraped
from the web. Indeed, the value of data collected about genuine human
interactions with systems will be increasingly valuable in the presence of
content generated by LLMs in data crawled from the Internet.