Identificación de Origen Generalizable para Modelos de Difusión de Imagen a Imagen Guiados por Texto
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
January 4, 2025
Autores: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI
Resumen
Los modelos de difusión de imagen a imagen guiados por texto destacan en la traducción de imágenes basadas en indicaciones textuales, permitiendo modificaciones visuales precisas y creativas. Sin embargo, esta técnica tan potente puede ser mal utilizada para difundir información errónea, infringir derechos de autor y evadir el rastreo de contenido. Esto nos motiva a presentar la tarea de Identificación de Origen para modelos de Difusión de Imagen a Imagen guiados por texto (ID^2), con el objetivo de recuperar la imagen original de una consulta traducida dada. Una solución directa para ID^2 implica entrenar un modelo de incrustación profunda especializado para extraer y comparar características tanto de la consulta como de las imágenes de referencia. Sin embargo, debido a las discrepancias visuales entre generaciones producidas por diferentes modelos de difusión, este enfoque basado en similitud falla al entrenar con imágenes de un modelo y probar con imágenes de otro, limitando su efectividad en aplicaciones del mundo real. Para resolver este desafío de la tarea propuesta ID^2, presentamos el primer conjunto de datos y un método teóricamente garantizado, ambos enfatizando la generalización. El conjunto de datos curado, OriPID, contiene abundantes Orígenes e Indicaciones guiadas, que pueden ser utilizados para entrenar y probar posibles modelos de Identificación a través de varios modelos de difusión. En la sección de método, primero demostramos la existencia de una transformación lineal que minimiza la distancia entre las incrustaciones pre-entrenadas del Autoencoder Variacional (VAE) de las muestras generadas y sus orígenes. Posteriormente, se demuestra que tal transformación lineal simple puede generalizarse a través de diferentes modelos de difusión. Los resultados experimentales muestran que el método propuesto logra un rendimiento de generalización satisfactorio, superando significativamente a los métodos basados en similitud (+31.6% mAP), incluso aquellos con diseños de generalización.
English
Text-guided image-to-image diffusion models excel in translating images based
on textual prompts, allowing for precise and creative visual modifications.
However, such a powerful technique can be misused for spreading misinformation,
infringing on copyrights, and evading content tracing. This motivates us to
introduce the task of origin IDentification for text-guided Image-to-image
Diffusion models (ID^2), aiming to retrieve the original image of a given
translated query. A straightforward solution to ID^2 involves training a
specialized deep embedding model to extract and compare features from both
query and reference images. However, due to visual discrepancy across
generations produced by different diffusion models, this similarity-based
approach fails when training on images from one model and testing on those from
another, limiting its effectiveness in real-world applications. To solve this
challenge of the proposed ID^2 task, we contribute the first dataset and a
theoretically guaranteed method, both emphasizing generalizability. The curated
dataset, OriPID, contains abundant Origins and guided Prompts, which can be
used to train and test potential IDentification models across various diffusion
models. In the method section, we first prove the existence of a linear
transformation that minimizes the distance between the pre-trained Variational
Autoencoder (VAE) embeddings of generated samples and their origins.
Subsequently, it is demonstrated that such a simple linear transformation can
be generalized across different diffusion models. Experimental results show
that the proposed method achieves satisfying generalization performance,
significantly surpassing similarity-based methods (+31.6% mAP), even those
with generalization designs.Summary
AI-Generated Summary