ChatPaper.aiChatPaper

Comprensión y mitigación de la copia en modelos de difusión

Understanding and Mitigating Copying in Diffusion Models

May 31, 2023
Autores: Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI

Resumen

Las imágenes generadas por modelos de difusión como Stable Diffusion son cada vez más comunes. Trabajos recientes e incluso demandas legales han demostrado que estos modelos tienden a replicar sus datos de entrenamiento, sin que el usuario lo sepa. En este artículo, primero analizamos este problema de memorización en los modelos de difusión de texto a imagen. Si bien se cree ampliamente que las imágenes duplicadas en el conjunto de entrenamiento son responsables de la replicación de contenido durante la inferencia, observamos que el condicionamiento textual del modelo juega un papel igualmente importante. De hecho, en nuestros experimentos vemos que la replicación de datos a menudo no ocurre en modelos no condicionados, mientras que es común en el caso condicionado por texto. Motivados por nuestros hallazgos, proponemos varias técnicas para reducir la replicación de datos tanto en el entrenamiento como en la inferencia, mediante la aleatorización y el aumento de los textos descriptivos de las imágenes en el conjunto de entrenamiento.
English
Images generated by diffusion models like Stable Diffusion are increasingly widespread. Recent works and even lawsuits have shown that these models are prone to replicating their training data, unbeknownst to the user. In this paper, we first analyze this memorization problem in text-to-image diffusion models. While it is widely believed that duplicated images in the training set are responsible for content replication at inference time, we observe that the text conditioning of the model plays a similarly important role. In fact, we see in our experiments that data replication often does not happen for unconditional models, while it is common in the text-conditional case. Motivated by our findings, we then propose several techniques for reducing data replication at both training and inference time by randomizing and augmenting image captions in the training set.
PDF30December 15, 2024