Modeldementie: gegenereerde data zorgt ervoor dat modellen vergeten
Model Dementia: Generated Data Makes Models Forget
May 27, 2023
Auteurs: Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson
cs.AI
Samenvatting
Stable Diffusion heeft een revolutie teweeggebracht in het creëren van afbeeldingen uit beschrijvende tekst. GPT-2, GPT-3(.5) en GPT-4 hebben verbazingwekkende prestaties laten zien bij een verscheidenheid aan taaltaken. ChatGPT heeft dergelijke taalmodelen bij het grote publiek geïntroduceerd. Het is nu duidelijk dat grote taalmodelen (LLM's) blijvend zijn en drastische veranderingen zullen teweegbrengen in het hele ecosysteem van online tekst en afbeeldingen. In dit artikel beschouwen we wat de toekomst in petto zou kunnen hebben. Wat zal er gebeuren met GPT-{n} zodra LLM's een groot deel van de online gevonden taal gaan bijdragen? We ontdekken dat het gebruik van modelgegenereerde inhoud in training onomkeerbare defecten veroorzaakt in de resulterende modellen, waarbij de staarten van de oorspronkelijke inhoudsverdeling verdwijnen. We noemen dit effect modeldementie en tonen aan dat het kan voorkomen in Variational Autoencoders (VAE's), Gaussian Mixture Models (GMM's) en LLM's. We ontwikkelen een theoretisch inzicht achter dit fenomeen en illustreren de alomtegenwoordigheid ervan bij alle geleerde generatieve modellen. We laten zien dat het serieus genomen moet worden als we de voordelen van training op basis van grootschalige gegevens die van het web zijn geschraapt, willen behouden. Inderdaad, de waarde van gegevens die worden verzameld over authentieke menselijke interacties met systemen zal steeds waardevoller worden in de aanwezigheid van inhoud die door LLM's is gegenereerd in gegevens die van het internet zijn gecrawld.
English
Stable Diffusion revolutionised image creation from descriptive text. GPT-2,
GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of
language tasks. ChatGPT introduced such language models to the general public.
It is now clear that large language models (LLMs) are here to stay, and will
bring about drastic change in the whole ecosystem of online text and images. In
this paper we consider what the future might hold. What will happen to GPT-{n}
once LLMs contribute much of the language found online? We find that use of
model-generated content in training causes irreversible defects in the
resulting models, where tails of the original content distribution disappear.
We call this effect model dementia and show that it can occur in Variational
Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build
theoretical intuition behind the phenomenon and portray its ubiquity amongst
all learned generative models. We demonstrate that it has to be taken seriously
if we are to sustain the benefits of training from large-scale data scraped
from the web. Indeed, the value of data collected about genuine human
interactions with systems will be increasingly valuable in the presence of
content generated by LLMs in data crawled from the Internet.