Обобщенная идентификация происхождения для моделей диффузии изображения-изображение с текстовым управлением
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
January 4, 2025
Авторы: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI
Аннотация
Модели диффузии изображений по текстовому сопровождению превосходно справляются с переводом изображений на основе текстовых подсказок, позволяя осуществлять точные и креативные визуальные модификации. Однако такая мощная техника может быть злоупотреблена для распространения дезинформации, нарушения авторских прав и избегания отслеживания контента. Это мотивирует нас представить задачу идентификации происхождения для моделей диффузии изображений по текстовому сопровождению (ID^2), целью которой является извлечение оригинального изображения по заданному переведенному запросу. Простое решение для ID^2 включает обучение специализированной глубокой модели встраивания для извлечения и сравнения признаков как из запроса, так и из эталонных изображений. Однако из-за визуальных расхождений между поколениями, созданными различными моделями диффузии, такой подход на основе сходства терпит неудачу при обучении на изображениях одной модели и тестировании на тех, которые принадлежат другой, что ограничивает его эффективность в реальных приложениях. Для решения этой проблемы, предложенной задачи ID^2, мы предлагаем первоначальный набор данных и теоретически гарантированный метод, оба акцентирующие обобщаемость. Составленный набор данных, OriPID, содержит обширные Происхождения и направляющие Подсказки, которые могут быть использованы для обучения и тестирования потенциальных моделей идентификации через различные модели диффузии. В разделе методов мы сначала доказываем существование линейного преобразования, которое минимизирует расстояние между предварительно обученными встраиваниями вариационного автокодировщика (VAE) сгенерированных образцов и их происхождения. Впоследствии демонстрируется, что такое простое линейное преобразование может быть обобщено на различные модели диффузии. Экспериментальные результаты показывают, что предложенный метод достигает удовлетворительной обобщаемости, значительно превосходя методы на основе сходства (+31.6% mAP), даже те, которые имеют конструкции для обобщения.
English
Text-guided image-to-image diffusion models excel in translating images based
on textual prompts, allowing for precise and creative visual modifications.
However, such a powerful technique can be misused for spreading misinformation,
infringing on copyrights, and evading content tracing. This motivates us to
introduce the task of origin IDentification for text-guided Image-to-image
Diffusion models (ID^2), aiming to retrieve the original image of a given
translated query. A straightforward solution to ID^2 involves training a
specialized deep embedding model to extract and compare features from both
query and reference images. However, due to visual discrepancy across
generations produced by different diffusion models, this similarity-based
approach fails when training on images from one model and testing on those from
another, limiting its effectiveness in real-world applications. To solve this
challenge of the proposed ID^2 task, we contribute the first dataset and a
theoretically guaranteed method, both emphasizing generalizability. The curated
dataset, OriPID, contains abundant Origins and guided Prompts, which can be
used to train and test potential IDentification models across various diffusion
models. In the method section, we first prove the existence of a linear
transformation that minimizes the distance between the pre-trained Variational
Autoencoder (VAE) embeddings of generated samples and their origins.
Subsequently, it is demonstrated that such a simple linear transformation can
be generalized across different diffusion models. Experimental results show
that the proposed method achieves satisfying generalization performance,
significantly surpassing similarity-based methods (+31.6% mAP), even those
with generalization designs.Summary
AI-Generated Summary