Verständnis und Minderung von Kopiervorgängen in Diffusionsmodellen
Understanding and Mitigating Copying in Diffusion Models
May 31, 2023
Autoren: Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Zusammenfassung
Bilder, die von Diffusionsmodellen wie Stable Diffusion erzeugt werden, sind zunehmend verbreitet. Jüngste Arbeiten und sogar Gerichtsverfahren haben gezeigt, dass diese Modelle dazu neigen, ihre Trainingsdaten zu replizieren, ohne dass der Benutzer dies bemerkt. In diesem Artikel analysieren wir zunächst dieses Memorierungsproblem in textgesteuerten Diffusionsmodellen. Während allgemein angenommen wird, dass doppelte Bilder im Trainingsdatensatz für die Inhaltsreplikation zur Inferenzzeit verantwortlich sind, beobachten wir, dass die Textkonditionierung des Modells eine ebenso wichtige Rolle spielt. Tatsächlich zeigen unsere Experimente, dass Datenreplikation bei unbedingten Modellen oft nicht auftritt, während sie im textkonditionierten Fall häufig vorkommt. Motiviert durch unsere Erkenntnisse schlagen wir anschließend mehrere Techniken vor, um die Datenreplikation sowohl während des Trainings als auch zur Inferenzzeit zu reduzieren, indem wir Bildbeschreibungen im Trainingsdatensatz randomisieren und erweitern.
English
Images generated by diffusion models like Stable Diffusion are increasingly
widespread. Recent works and even lawsuits have shown that these models are
prone to replicating their training data, unbeknownst to the user. In this
paper, we first analyze this memorization problem in text-to-image diffusion
models. While it is widely believed that duplicated images in the training set
are responsible for content replication at inference time, we observe that the
text conditioning of the model plays a similarly important role. In fact, we
see in our experiments that data replication often does not happen for
unconditional models, while it is common in the text-conditional case.
Motivated by our findings, we then propose several techniques for reducing data
replication at both training and inference time by randomizing and augmenting
image captions in the training set.