Verallgemeinerbare Herkunftserkennung für textgeführte Bild-zu-Bild-Diffusionsmodelle
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
January 4, 2025
Autoren: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI
Zusammenfassung
Textgesteuerte Bild-zu-Bild-Diffusionsmodelle zeichnen sich durch ihre Fähigkeit aus, Bilder basierend auf textuellen Anweisungen zu übersetzen, was präzise und kreative visuelle Modifikationen ermöglicht. Allerdings kann eine solch leistungsstarke Technik für die Verbreitung von Fehlinformationen, Urheberrechtsverletzungen und die Umgehung der Inhaltsverfolgung missbraucht werden. Dies motiviert uns, die Aufgabe der Ursprungserkennung für textgesteuerte Bild-zu-Bild-Diffusionsmodelle (ID^2) einzuführen, mit dem Ziel, das ursprüngliche Bild einer gegebenen übersetzten Abfrage abzurufen. Eine einfache Lösung für ID^2 besteht darin, ein spezialisiertes tiefes Einbettungsmodell zu trainieren, um Merkmale sowohl von der Abfrage als auch von Referenzbildern zu extrahieren und zu vergleichen. Aufgrund visueller Diskrepanzen zwischen den Generationen, die von verschiedenen Diffusionsmodellen erzeugt werden, versagt dieser ähnlichkeitsbasierte Ansatz jedoch, wenn er auf Bilder eines Modells trainiert und auf solche eines anderen getestet wird, was seine Wirksamkeit in realen Anwendungen einschränkt. Um diese Herausforderung der vorgeschlagenen ID^2-Aufgabe zu lösen, tragen wir das erste Datenset und eine theoretisch garantierte Methode bei, die beide die Verallgemeinerbarkeit betonen. Das kuratierte Datenset, OriPID, enthält reichlich Ursprünge und geleitete Anweisungen, die verwendet werden können, um potenzielle Identifikationsmodelle über verschiedene Diffusionsmodelle hinweg zu trainieren und zu testen. Im Methodenteil beweisen wir zunächst die Existenz einer linearen Transformation, die den Abstand zwischen den vortrainierten Einbettungen des Variationalen Autoencoders (VAE) von generierten Proben und ihren Ursprüngen minimiert. Anschließend wird gezeigt, dass eine solch einfache lineare Transformation über verschiedene Diffusionsmodelle hinweg verallgemeinert werden kann. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode eine zufriedenstellende Verallgemeinerungsleistung erreicht und signifikant die ähnlichkeitsbasierten Methoden überschreitet (+31,6% mAP), selbst solche mit Verallgemeinerungskonzepten.
English
Text-guided image-to-image diffusion models excel in translating images based
on textual prompts, allowing for precise and creative visual modifications.
However, such a powerful technique can be misused for spreading misinformation,
infringing on copyrights, and evading content tracing. This motivates us to
introduce the task of origin IDentification for text-guided Image-to-image
Diffusion models (ID^2), aiming to retrieve the original image of a given
translated query. A straightforward solution to ID^2 involves training a
specialized deep embedding model to extract and compare features from both
query and reference images. However, due to visual discrepancy across
generations produced by different diffusion models, this similarity-based
approach fails when training on images from one model and testing on those from
another, limiting its effectiveness in real-world applications. To solve this
challenge of the proposed ID^2 task, we contribute the first dataset and a
theoretically guaranteed method, both emphasizing generalizability. The curated
dataset, OriPID, contains abundant Origins and guided Prompts, which can be
used to train and test potential IDentification models across various diffusion
models. In the method section, we first prove the existence of a linear
transformation that minimizes the distance between the pre-trained Variational
Autoencoder (VAE) embeddings of generated samples and their origins.
Subsequently, it is demonstrated that such a simple linear transformation can
be generalized across different diffusion models. Experimental results show
that the proposed method achieves satisfying generalization performance,
significantly surpassing similarity-based methods (+31.6% mAP), even those
with generalization designs.Summary
AI-Generated Summary