Comprendre et atténuer le phénomène de copie dans les modèles de diffusion
Understanding and Mitigating Copying in Diffusion Models
May 31, 2023
Auteurs: Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Résumé
Les images générées par des modèles de diffusion comme Stable Diffusion sont de plus en plus répandues. Des travaux récents, voire des procès, ont montré que ces modèles ont tendance à reproduire leurs données d'entraînement, à l'insu de l'utilisateur. Dans cet article, nous analysons d'abord ce problème de mémorisation dans les modèles de diffusion texte-image. Bien qu'il soit largement admis que les images dupliquées dans l'ensemble d'entraînement sont responsables de la réplication de contenu au moment de l'inférence, nous observons que le conditionnement par le texte joue un rôle tout aussi important. En effet, nos expériences montrent que la réplication des données ne se produit souvent pas pour les modèles non conditionnés, alors qu'elle est fréquente dans le cas conditionné par le texte. Motivés par ces résultats, nous proposons ensuite plusieurs techniques pour réduire la réplication des données, tant pendant l'entraînement qu'à l'inférence, en randomisant et en augmentant les légendes d'images dans l'ensemble d'entraînement.
English
Images generated by diffusion models like Stable Diffusion are increasingly
widespread. Recent works and even lawsuits have shown that these models are
prone to replicating their training data, unbeknownst to the user. In this
paper, we first analyze this memorization problem in text-to-image diffusion
models. While it is widely believed that duplicated images in the training set
are responsible for content replication at inference time, we observe that the
text conditioning of the model plays a similarly important role. In fact, we
see in our experiments that data replication often does not happen for
unconditional models, while it is common in the text-conditional case.
Motivated by our findings, we then propose several techniques for reducing data
replication at both training and inference time by randomizing and augmenting
image captions in the training set.