Хрупкость техник нанесения водяных знаков на изображения, созданных искусственным интеллектом: исследование их устойчивости к атакам визуального перефразирования.
The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks
August 19, 2024
Авторы: Niyar R Barman, Krish Sharma, Ashhar Aziz, Shashwat Bajpai, Shwetangshu Biswas, Vasu Sharma, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
cs.AI
Аннотация
Быстрое развитие систем генерации текста в изображения, проиллюстрированное моделями, такими как Stable Diffusion, Midjourney, Imagen и DALL-E, вызвало опасения относительно их потенциального злоупотребления. В ответ на это компании, такие как Meta и Google, усилили усилия по внедрению техник водяных знаков на изображения, созданные искусственным интеллектом, чтобы пресечь распространение потенциально вводящих в заблуждение визуальных материалов. Однако в данной статье мы утверждаем, что текущие методы водяных знаков на изображениях хрупки и подвержены обходу через атаки визуального перефразирования. Предложенный визуальный перефразер работает в два этапа. Сначала он генерирует подпись для данного изображения с использованием KOSMOS-2, одной из последних передовых систем подписывания изображений. Затем он передает как оригинальное изображение, так и сгенерированную подпись в систему диффузии изображения в изображение. Во время этапа удаления шума в трубопроводе диффузии система генерирует визуально похожее изображение, которое направляется текстовой подписью. Полученное изображение является визуальным перефразом и не содержит никаких водяных знаков. Наши эмпирические результаты демонстрируют, что атаки визуального перефразирования могут эффективно удалять водяные знаки с изображений. В данной статье предоставляется критическая оценка, эмпирически раскрывающая уязвимость существующих техник водяных знаков к атакам визуального перефразирования. Хотя мы не предлагаем решений этой проблемы, данная статья служит призывом к действию для научного сообщества с приоритетом на разработку более надежных техник водяных знаков. Наш набор данных визуального перефраза первого вида и сопутствующий код доступны публично.
English
The rapid advancement of text-to-image generation systems, exemplified by
models like Stable Diffusion, Midjourney, Imagen, and DALL-E, has heightened
concerns about their potential misuse. In response, companies like Meta and
Google have intensified their efforts to implement watermarking techniques on
AI-generated images to curb the circulation of potentially misleading visuals.
However, in this paper, we argue that current image watermarking methods are
fragile and susceptible to being circumvented through visual paraphrase
attacks. The proposed visual paraphraser operates in two steps. First, it
generates a caption for the given image using KOSMOS-2, one of the latest
state-of-the-art image captioning systems. Second, it passes both the original
image and the generated caption to an image-to-image diffusion system. During
the denoising step of the diffusion pipeline, the system generates a visually
similar image that is guided by the text caption. The resulting image is a
visual paraphrase and is free of any watermarks. Our empirical findings
demonstrate that visual paraphrase attacks can effectively remove watermarks
from images. This paper provides a critical assessment, empirically revealing
the vulnerability of existing watermarking techniques to visual paraphrase
attacks. While we do not propose solutions to this issue, this paper serves as
a call to action for the scientific community to prioritize the development of
more robust watermarking techniques. Our first-of-its-kind visual paraphrase
dataset and accompanying code are publicly available.Summary
AI-Generated Summary