La Fragilità delle Tecniche di Filigrana per Immagini Generate dall'IA: Analisi della Loro Robustezza Contro Attacchi di Parafrasi Visiva
The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks
August 19, 2024
Autori: Niyar R Barman, Krish Sharma, Ashhar Aziz, Shashwat Bajpai, Shwetangshu Biswas, Vasu Sharma, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
cs.AI
Abstract
Il rapido progresso dei sistemi di generazione testo-immagine, esemplificato da modelli come Stable Diffusion, Midjourney, Imagen e DALL-E, ha accentuato le preoccupazioni riguardo al loro potenziale uso improprio. In risposta, aziende come Meta e Google hanno intensificato i loro sforzi per implementare tecniche di watermarking sulle immagini generate dall'IA, al fine di limitare la circolazione di contenuti visivi potenzialmente fuorvianti. Tuttavia, in questo articolo sosteniamo che i metodi attuali di watermarking delle immagini sono fragili e suscettibili di essere elusi attraverso attacchi di parafrasi visiva. Il parafrasatore visivo proposto opera in due fasi. Innanzitutto, genera una didascalia per l'immagine data utilizzando KOSMOS-2, uno dei più recenti sistemi all'avanguardia per la generazione di didascalie. In secondo luogo, passa sia l'immagine originale che la didascalia generata a un sistema di diffusione immagine-immagine. Durante la fase di denoising della pipeline di diffusione, il sistema genera un'immagine visivamente simile che è guidata dalla didascalia testuale. L'immagine risultante è una parafrasi visiva ed è priva di qualsiasi watermark. I nostri risultati empirici dimostrano che gli attacchi di parafrasi visiva possono rimuovere efficacemente i watermark dalle immagini. Questo articolo fornisce una valutazione critica, rivelando empiricamente la vulnerabilità delle tecniche di watermarking esistenti agli attacchi di parafrasi visiva. Sebbene non proponiamo soluzioni a questo problema, questo articolo rappresenta un invito all'azione per la comunità scientifica a dare priorità allo sviluppo di tecniche di watermarking più robuste. Il nostro dataset di parafrasi visiva, il primo nel suo genere, e il codice associato sono pubblicamente disponibili.
English
The rapid advancement of text-to-image generation systems, exemplified by
models like Stable Diffusion, Midjourney, Imagen, and DALL-E, has heightened
concerns about their potential misuse. In response, companies like Meta and
Google have intensified their efforts to implement watermarking techniques on
AI-generated images to curb the circulation of potentially misleading visuals.
However, in this paper, we argue that current image watermarking methods are
fragile and susceptible to being circumvented through visual paraphrase
attacks. The proposed visual paraphraser operates in two steps. First, it
generates a caption for the given image using KOSMOS-2, one of the latest
state-of-the-art image captioning systems. Second, it passes both the original
image and the generated caption to an image-to-image diffusion system. During
the denoising step of the diffusion pipeline, the system generates a visually
similar image that is guided by the text caption. The resulting image is a
visual paraphrase and is free of any watermarks. Our empirical findings
demonstrate that visual paraphrase attacks can effectively remove watermarks
from images. This paper provides a critical assessment, empirically revealing
the vulnerability of existing watermarking techniques to visual paraphrase
attacks. While we do not propose solutions to this issue, this paper serves as
a call to action for the scientific community to prioritize the development of
more robust watermarking techniques. Our first-of-its-kind visual paraphrase
dataset and accompanying code are publicly available.