Identification d'origine généralisable pour les modèles de diffusion image par image guidés par texte
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
January 4, 2025
Auteurs: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI
Résumé
Les modèles de diffusion d'image guidés par texte excellent dans la traduction d'images basée sur des instructions textuelles, permettant des modifications visuelles précises et créatives. Cependant, une telle technique puissante peut être utilisée de manière abusive pour propager des informations erronées, enfreindre les droits d'auteur et contourner la traçabilité du contenu. Cela nous motive à introduire la tâche d'Identification de l'Origine pour les modèles de diffusion d'image guidés par texte (ID^2), visant à retrouver l'image d'origine d'une requête traduite donnée. Une solution directe pour l'ID^2 consiste à entraîner un modèle d'incorporation profonde spécialisé pour extraire et comparer les caractéristiques des images de requête et de référence. Cependant, en raison des divergences visuelles entre les générations produites par différents modèles de diffusion, cette approche basée sur la similarité échoue lors de l'entraînement sur des images d'un modèle et de tests sur celles d'un autre, limitant son efficacité dans des applications réelles. Pour résoudre ce défi de la tâche ID^2 proposée, nous contribuons avec le premier ensemble de données et une méthode garantie théoriquement, mettant tous deux l'accent sur la généralisabilité. L'ensemble de données sélectionné, OriPID, contient de nombreuses Origines et des Instructions guidées, qui peuvent être utilisées pour entraîner et tester des modèles potentiels d'Identification à travers différents modèles de diffusion. Dans la section méthode, nous prouvons d'abord l'existence d'une transformation linéaire qui minimise la distance entre les plongements pré-entraînés de l'Autoencodeur Variationnel (VAE) des échantillons générés et leurs origines. Ensuite, il est démontré qu'une telle transformation linéaire simple peut être généralisée à travers différents modèles de diffusion. Les résultats expérimentaux montrent que la méthode proposée atteint une performance de généralisation satisfaisante, dépassant significativement les méthodes basées sur la similarité (+31,6% mAP), même celles avec des conceptions de généralisation.
English
Text-guided image-to-image diffusion models excel in translating images based
on textual prompts, allowing for precise and creative visual modifications.
However, such a powerful technique can be misused for spreading misinformation,
infringing on copyrights, and evading content tracing. This motivates us to
introduce the task of origin IDentification for text-guided Image-to-image
Diffusion models (ID^2), aiming to retrieve the original image of a given
translated query. A straightforward solution to ID^2 involves training a
specialized deep embedding model to extract and compare features from both
query and reference images. However, due to visual discrepancy across
generations produced by different diffusion models, this similarity-based
approach fails when training on images from one model and testing on those from
another, limiting its effectiveness in real-world applications. To solve this
challenge of the proposed ID^2 task, we contribute the first dataset and a
theoretically guaranteed method, both emphasizing generalizability. The curated
dataset, OriPID, contains abundant Origins and guided Prompts, which can be
used to train and test potential IDentification models across various diffusion
models. In the method section, we first prove the existence of a linear
transformation that minimizes the distance between the pre-trained Variational
Autoencoder (VAE) embeddings of generated samples and their origins.
Subsequently, it is demonstrated that such a simple linear transformation can
be generalized across different diffusion models. Experimental results show
that the proposed method achieves satisfying generalization performance,
significantly surpassing similarity-based methods (+31.6% mAP), even those
with generalization designs.Summary
AI-Generated Summary