Demencia de Modelos: Los Datos Generados Hacen que los Modelos Olviden

Resumen

Stable Diffusion revolucionó la creación de imágenes a partir de texto descriptivo. GPT-2, GPT-3(.5) y GPT-4 demostraron un rendimiento asombroso en una variedad de tareas lingüísticas. ChatGPT introdujo estos modelos de lenguaje al público general. Ahora está claro que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llegado para quedarse y provocarán cambios drásticos en todo el ecosistema de texto e imágenes en línea. En este artículo, consideramos lo que el futuro podría deparar. ¿Qué le sucederá a GPT-{n} una vez que los LLMs contribuyan con gran parte del lenguaje encontrado en línea? Descubrimos que el uso de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes, donde las colas de la distribución original del contenido desaparecen. Llamamos a este efecto "demencia de modelos" y demostramos que puede ocurrir en Autoencoders Variacionales (VAEs), Modelos de Mezcla Gaussiana (GMMs) y LLMs. Construimos una intuición teórica detrás de este fenómeno y mostramos su ubicuidad entre todos los modelos generativos aprendidos. Demostramos que debe tomarse en serio si queremos mantener los beneficios del entrenamiento a partir de datos a gran escala extraídos de la web. De hecho, el valor de los datos recopilados sobre interacciones genuinas de los humanos con los sistemas será cada vez más valioso en presencia de contenido generado por LLMs en datos rastreados de Internet.

English

Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We call this effect model dementia and show that it can occur in Variational Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet.

Demencia de Modelos: Los Datos Generados Hacen que los Modelos Olviden

Model Dementia: Generated Data Makes Models Forget

Resumen

Support