ChatPaper.aiChatPaper

Compreendendo e Mitigando a Cópia em Modelos de Difusão

Understanding and Mitigating Copying in Diffusion Models

May 31, 2023
Autores: Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI

Resumo

Imagens geradas por modelos de difusão, como o Stable Diffusion, estão se tornando cada vez mais difundidas. Trabalhos recentes e até mesmo processos judiciais têm mostrado que esses modelos são propensos a replicar seus dados de treinamento, sem o conhecimento do usuário. Neste artigo, analisamos primeiro esse problema de memorização em modelos de difusão de texto para imagem. Embora seja amplamente aceito que imagens duplicadas no conjunto de treinamento sejam responsáveis pela replicação de conteúdo no momento da inferência, observamos que o condicionamento por texto do modelo desempenha um papel igualmente importante. De fato, vemos em nossos experimentos que a replicação de dados frequentemente não ocorre em modelos incondicionais, enquanto é comum no caso condicionado por texto. Motivados por nossas descobertas, propomos então várias técnicas para reduzir a replicação de dados tanto no treinamento quanto na inferência, randomizando e aumentando as legendas das imagens no conjunto de treinamento.
English
Images generated by diffusion models like Stable Diffusion are increasingly widespread. Recent works and even lawsuits have shown that these models are prone to replicating their training data, unbeknownst to the user. In this paper, we first analyze this memorization problem in text-to-image diffusion models. While it is widely believed that duplicated images in the training set are responsible for content replication at inference time, we observe that the text conditioning of the model plays a similarly important role. In fact, we see in our experiments that data replication often does not happen for unconditional models, while it is common in the text-conditional case. Motivated by our findings, we then propose several techniques for reducing data replication at both training and inference time by randomizing and augmenting image captions in the training set.
PDF30December 15, 2024