Begrijpen en beperken van kopieergedrag in diffusiemodellen
Understanding and Mitigating Copying in Diffusion Models
May 31, 2023
Auteurs: Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Samenvatting
Afbeeldingen gegenereerd door diffusiemodellen zoals Stable Diffusion worden steeds
vaker gebruikt. Recente onderzoeken en zelfs rechtszaken hebben aangetoond dat deze modellen
vatbaar zijn voor het repliceren van hun trainingsdata, zonder dat de gebruiker dit weet. In dit
artikel analyseren we eerst dit memorisatieprobleem in tekst-naar-afbeelding diffusiemodellen.
Hoewel algemeen wordt aangenomen dat gedupliceerde afbeeldingen in de trainingsset verantwoordelijk
zijn voor het repliceren van inhoud tijdens inferentie, observeren we dat de tekstconditionering
van het model een even belangrijke rol speelt. In feite zien we in onze experimenten dat
datareplicatie vaak niet voorkomt bij onvoorwaardelijke modellen, terwijl het gebruikelijk is
in het tekstgeconditioneerde geval. Gemotiveerd door onze bevindingen, stellen we vervolgens
verschillende technieken voor om datareplicatie te verminderen, zowel tijdens de training als
tijdens inferentie, door beeldbijschriften in de trainingsset te randomiseren en aan te vullen.
English
Images generated by diffusion models like Stable Diffusion are increasingly
widespread. Recent works and even lawsuits have shown that these models are
prone to replicating their training data, unbeknownst to the user. In this
paper, we first analyze this memorization problem in text-to-image diffusion
models. While it is widely believed that duplicated images in the training set
are responsible for content replication at inference time, we observe that the
text conditioning of the model plays a similarly important role. In fact, we
see in our experiments that data replication often does not happen for
unconditional models, while it is common in the text-conditional case.
Motivated by our findings, we then propose several techniques for reducing data
replication at both training and inference time by randomizing and augmenting
image captions in the training set.