ChatPaper.aiChatPaper

Comprensione e Mitigazione del Copiamento nei Modelli di Diffusione

Understanding and Mitigating Copying in Diffusion Models

May 31, 2023
Autori: Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI

Abstract

Le immagini generate da modelli di diffusione come Stable Diffusion stanno diventando sempre più diffuse. Recenti lavori e persino cause legali hanno dimostrato che questi modelli tendono a replicare i dati di addestramento, a insaputa dell'utente. In questo articolo, analizziamo innanzitutto questo problema di memorizzazione nei modelli di diffusione testo-immagine. Sebbene si ritenga comunemente che le immagini duplicate nel set di addestramento siano responsabili della replicazione del contenuto al momento dell'inferenza, osserviamo che il condizionamento testuale del modello svolge un ruolo altrettanto importante. In effetti, nei nostri esperimenti vediamo che la replicazione dei dati spesso non avviene per modelli non condizionati, mentre è comune nel caso di modelli condizionati dal testo. Motivati dalle nostre scoperte, proponiamo quindi diverse tecniche per ridurre la replicazione dei dati sia durante l'addestramento che al momento dell'inferenza, randomizzando e aumentando le didascalie delle immagini nel set di addestramento.
English
Images generated by diffusion models like Stable Diffusion are increasingly widespread. Recent works and even lawsuits have shown that these models are prone to replicating their training data, unbeknownst to the user. In this paper, we first analyze this memorization problem in text-to-image diffusion models. While it is widely believed that duplicated images in the training set are responsible for content replication at inference time, we observe that the text conditioning of the model plays a similarly important role. In fact, we see in our experiments that data replication often does not happen for unconditional models, while it is common in the text-conditional case. Motivated by our findings, we then propose several techniques for reducing data replication at both training and inference time by randomizing and augmenting image captions in the training set.
PDF30December 15, 2024