Verallgemeinerbare Herkunftserkennung für textgeführte Bild-zu-Bild-Diffusionsmodelle

papers.abstract

Textgesteuerte Bild-zu-Bild-Diffusionsmodelle zeichnen sich durch ihre Fähigkeit aus, Bilder basierend auf textuellen Anweisungen zu übersetzen, was präzise und kreative visuelle Modifikationen ermöglicht. Allerdings kann eine solch leistungsstarke Technik für die Verbreitung von Fehlinformationen, Urheberrechtsverletzungen und die Umgehung der Inhaltsverfolgung missbraucht werden. Dies motiviert uns, die Aufgabe der Ursprungserkennung für textgesteuerte Bild-zu-Bild-Diffusionsmodelle (ID^2) einzuführen, mit dem Ziel, das ursprüngliche Bild einer gegebenen übersetzten Abfrage abzurufen. Eine einfache Lösung für ID^2 besteht darin, ein spezialisiertes tiefes Einbettungsmodell zu trainieren, um Merkmale sowohl von der Abfrage als auch von Referenzbildern zu extrahieren und zu vergleichen. Aufgrund visueller Diskrepanzen zwischen den Generationen, die von verschiedenen Diffusionsmodellen erzeugt werden, versagt dieser ähnlichkeitsbasierte Ansatz jedoch, wenn er auf Bilder eines Modells trainiert und auf solche eines anderen getestet wird, was seine Wirksamkeit in realen Anwendungen einschränkt. Um diese Herausforderung der vorgeschlagenen ID^2-Aufgabe zu lösen, tragen wir das erste Datenset und eine theoretisch garantierte Methode bei, die beide die Verallgemeinerbarkeit betonen. Das kuratierte Datenset, OriPID, enthält reichlich Ursprünge und geleitete Anweisungen, die verwendet werden können, um potenzielle Identifikationsmodelle über verschiedene Diffusionsmodelle hinweg zu trainieren und zu testen. Im Methodenteil beweisen wir zunächst die Existenz einer linearen Transformation, die den Abstand zwischen den vortrainierten Einbettungen des Variationalen Autoencoders (VAE) von generierten Proben und ihren Ursprüngen minimiert. Anschließend wird gezeigt, dass eine solch einfache lineare Transformation über verschiedene Diffusionsmodelle hinweg verallgemeinert werden kann. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode eine zufriedenstellende Verallgemeinerungsleistung erreicht und signifikant die ähnlichkeitsbasierten Methoden überschreitet (+31,6% mAP), selbst solche mit Verallgemeinerungskonzepten.

English

Text-guided image-to-image diffusion models excel in translating images based on textual prompts, allowing for precise and creative visual modifications. However, such a powerful technique can be misused for spreading misinformation, infringing on copyrights, and evading content tracing. This motivates us to introduce the task of origin IDentification for text-guided Image-to-image Diffusion models (ID^2), aiming to retrieve the original image of a given translated query. A straightforward solution to ID^2 involves training a specialized deep embedding model to extract and compare features from both query and reference images. However, due to visual discrepancy across generations produced by different diffusion models, this similarity-based approach fails when training on images from one model and testing on those from another, limiting its effectiveness in real-world applications. To solve this challenge of the proposed ID^2 task, we contribute the first dataset and a theoretically guaranteed method, both emphasizing generalizability. The curated dataset, OriPID, contains abundant Origins and guided Prompts, which can be used to train and test potential IDentification models across various diffusion models. In the method section, we first prove the existence of a linear transformation that minimizes the distance between the pre-trained Variational Autoencoder (VAE) embeddings of generated samples and their origins. Subsequently, it is demonstrated that such a simple linear transformation can be generalized across different diffusion models. Experimental results show that the proposed method achieves satisfying generalization performance, significantly surpassing similarity-based methods (+31.6% mAP), even those with generalization designs.

Verallgemeinerbare Herkunftserkennung für textgeführte Bild-zu-Bild-Diffusionsmodelle

Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

papers.abstract

Support