Generaliseerbare oorsprongsidentificatie voor tekstgestuurde beeld-naar-beeld diffusiemodellen
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models
January 4, 2025
Auteurs: Wenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang
cs.AI
Samenvatting
Tekstgestuurde beeld-naar-beeld diffusiemodellen excelleren in het vertalen van afbeeldingen op basis van tekstuele aanwijzingen, waardoor nauwkeurige en creatieve visuele aanpassingen mogelijk zijn. Echter kan zo'n krachtige techniek misbruikt worden voor het verspreiden van misinformatie, inbreuk maken op auteursrechten en het ontwijken van het traceren van inhoud. Dit motiveert ons om de taak van origine-identificatie voor tekstgestuurde beeld-naar-beeld diffusiemodellen (ID^2) te introduceren, met als doel de originele afbeelding van een gegeven vertaalde query op te halen. Een eenvoudige oplossing voor ID^2 omvat het trainen van een gespecialiseerd diep insluitingsmodel om kenmerken uit zowel de query als referentieafbeeldingen te extraheren en vergelijken. Echter, vanwege visuele discrepantie over generaties geproduceerd door verschillende diffusiemodellen, faalt deze op gelijkenis gebaseerde benadering wanneer getraind wordt op afbeeldingen van het ene model en getest op die van een ander, wat de effectiviteit beperkt in real-world toepassingen. Om dit uitdaging van de voorgestelde ID^2-taak op te lossen, dragen we bij met de eerste dataset en een theoretisch gegarandeerde methode, waarbij generaliseerbaarheid benadrukt wordt. De samengestelde dataset, OriPID, bevat overvloedige Origins en begeleide Prompts, die gebruikt kunnen worden om potentiële Identificatiemodellen te trainen en testen over verschillende diffusiemodellen. In de methodensectie bewijzen we eerst het bestaan van een lineaire transformatie die de afstand minimaliseert tussen de vooraf getrainde insluitingen van de variational autoencoder (VAE) van gegenereerde samples en hun oorsprongen. Vervolgens wordt aangetoond dat zo'n eenvoudige lineaire transformatie gegeneraliseerd kan worden over verschillende diffusiemodellen. Experimentele resultaten tonen aan dat de voorgestelde methode bevredigende generalisatieprestaties behaalt, aanzienlijk beter dan op gelijkenis gebaseerde methoden (+31.6% mAP), zelfs die met generalisatieontwerpen.
English
Text-guided image-to-image diffusion models excel in translating images based
on textual prompts, allowing for precise and creative visual modifications.
However, such a powerful technique can be misused for spreading misinformation,
infringing on copyrights, and evading content tracing. This motivates us to
introduce the task of origin IDentification for text-guided Image-to-image
Diffusion models (ID^2), aiming to retrieve the original image of a given
translated query. A straightforward solution to ID^2 involves training a
specialized deep embedding model to extract and compare features from both
query and reference images. However, due to visual discrepancy across
generations produced by different diffusion models, this similarity-based
approach fails when training on images from one model and testing on those from
another, limiting its effectiveness in real-world applications. To solve this
challenge of the proposed ID^2 task, we contribute the first dataset and a
theoretically guaranteed method, both emphasizing generalizability. The curated
dataset, OriPID, contains abundant Origins and guided Prompts, which can be
used to train and test potential IDentification models across various diffusion
models. In the method section, we first prove the existence of a linear
transformation that minimizes the distance between the pre-trained Variational
Autoencoder (VAE) embeddings of generated samples and their origins.
Subsequently, it is demonstrated that such a simple linear transformation can
be generalized across different diffusion models. Experimental results show
that the proposed method achieves satisfying generalization performance,
significantly surpassing similarity-based methods (+31.6% mAP), even those
with generalization designs.Summary
AI-Generated Summary