Понимание и снижение эффекта копирования в диффузионных моделях
Understanding and Mitigating Copying in Diffusion Models
May 31, 2023
Авторы: Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein
cs.AI
Аннотация
Изображения, создаваемые диффузионными моделями, такими как Stable Diffusion, становятся всё более распространёнными. Недавние исследования и даже судебные разбирательства показали, что эти модели склонны воспроизводить свои обучающие данные, что остаётся незамеченным для пользователя. В данной работе мы сначала анализируем проблему запоминания в текстово-ориентированных диффузионных моделях. Хотя широко распространено мнение, что дублированные изображения в обучающем наборе ответственны за воспроизведение контента на этапе вывода, мы наблюдаем, что текстовое условие модели играет не менее важную роль. Фактически, в наших экспериментах мы видим, что воспроизведение данных часто не происходит в безусловных моделях, тогда как в текстово-условных случаях это явление распространено. Вдохновлённые нашими выводами, мы предлагаем несколько методов для уменьшения воспроизведения данных как на этапе обучения, так и на этапе вывода, путём рандомизации и дополнения текстовых описаний изображений в обучающем наборе.
English
Images generated by diffusion models like Stable Diffusion are increasingly
widespread. Recent works and even lawsuits have shown that these models are
prone to replicating their training data, unbeknownst to the user. In this
paper, we first analyze this memorization problem in text-to-image diffusion
models. While it is widely believed that duplicated images in the training set
are responsible for content replication at inference time, we observe that the
text conditioning of the model plays a similarly important role. In fact, we
see in our experiments that data replication often does not happen for
unconditional models, while it is common in the text-conditional case.
Motivated by our findings, we then propose several techniques for reducing data
replication at both training and inference time by randomizing and augmenting
image captions in the training set.