Demencia de Modelos: Los Datos Generados Hacen que los Modelos Olviden
Model Dementia: Generated Data Makes Models Forget
May 27, 2023
Autores: Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson
cs.AI
Resumen
Stable Diffusion revolucionó la creación de imágenes a partir de texto descriptivo. GPT-2, GPT-3(.5) y GPT-4 demostraron un rendimiento asombroso en una variedad de tareas lingüísticas. ChatGPT introdujo estos modelos de lenguaje al público general. Ahora está claro que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llegado para quedarse y provocarán cambios drásticos en todo el ecosistema de texto e imágenes en línea. En este artículo, consideramos lo que el futuro podría deparar. ¿Qué le sucederá a GPT-{n} una vez que los LLMs contribuyan con gran parte del lenguaje encontrado en línea? Descubrimos que el uso de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes, donde las colas de la distribución original del contenido desaparecen. Llamamos a este efecto "demencia de modelos" y demostramos que puede ocurrir en Autoencoders Variacionales (VAEs), Modelos de Mezcla Gaussiana (GMMs) y LLMs. Construimos una intuición teórica detrás de este fenómeno y mostramos su ubicuidad entre todos los modelos generativos aprendidos. Demostramos que debe tomarse en serio si queremos mantener los beneficios del entrenamiento a partir de datos a gran escala extraídos de la web. De hecho, el valor de los datos recopilados sobre interacciones genuinas de los humanos con los sistemas será cada vez más valioso en presencia de contenido generado por LLMs en datos rastreados de Internet.
English
Stable Diffusion revolutionised image creation from descriptive text. GPT-2,
GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of
language tasks. ChatGPT introduced such language models to the general public.
It is now clear that large language models (LLMs) are here to stay, and will
bring about drastic change in the whole ecosystem of online text and images. In
this paper we consider what the future might hold. What will happen to GPT-{n}
once LLMs contribute much of the language found online? We find that use of
model-generated content in training causes irreversible defects in the
resulting models, where tails of the original content distribution disappear.
We call this effect model dementia and show that it can occur in Variational
Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build
theoretical intuition behind the phenomenon and portray its ubiquity amongst
all learned generative models. We demonstrate that it has to be taken seriously
if we are to sustain the benefits of training from large-scale data scraped
from the web. Indeed, the value of data collected about genuine human
interactions with systems will be increasingly valuable in the presence of
content generated by LLMs in data crawled from the Internet.