Modeldementie: gegenereerde data zorgt ervoor dat modellen vergeten

Samenvatting

Stable Diffusion heeft een revolutie teweeggebracht in het creëren van afbeeldingen uit beschrijvende tekst. GPT-2, GPT-3(.5) en GPT-4 hebben verbazingwekkende prestaties laten zien bij een verscheidenheid aan taaltaken. ChatGPT heeft dergelijke taalmodelen bij het grote publiek geïntroduceerd. Het is nu duidelijk dat grote taalmodelen (LLM's) blijvend zijn en drastische veranderingen zullen teweegbrengen in het hele ecosysteem van online tekst en afbeeldingen. In dit artikel beschouwen we wat de toekomst in petto zou kunnen hebben. Wat zal er gebeuren met GPT-{n} zodra LLM's een groot deel van de online gevonden taal gaan bijdragen? We ontdekken dat het gebruik van modelgegenereerde inhoud in training onomkeerbare defecten veroorzaakt in de resulterende modellen, waarbij de staarten van de oorspronkelijke inhoudsverdeling verdwijnen. We noemen dit effect modeldementie en tonen aan dat het kan voorkomen in Variational Autoencoders (VAE's), Gaussian Mixture Models (GMM's) en LLM's. We ontwikkelen een theoretisch inzicht achter dit fenomeen en illustreren de alomtegenwoordigheid ervan bij alle geleerde generatieve modellen. We laten zien dat het serieus genomen moet worden als we de voordelen van training op basis van grootschalige gegevens die van het web zijn geschraapt, willen behouden. Inderdaad, de waarde van gegevens die worden verzameld over authentieke menselijke interacties met systemen zal steeds waardevoller worden in de aanwezigheid van inhoud die door LLM's is gegenereerd in gegevens die van het internet zijn gecrawld.

English

Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We call this effect model dementia and show that it can occur in Variational Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet.

Modeldementie: gegenereerde data zorgt ervoor dat modellen vergeten

Model Dementia: Generated Data Makes Models Forget

Samenvatting

Support