Peccavi: Визуальная техника парафразной атаки с безопасным и без искажений водяным знаком для изображений, созданных ИИ
Peccavi: Visual Paraphrase Attack Safe and Distortion Free Image Watermarking Technique for AI-Generated Images
June 28, 2025
Авторы: Shreyas Dixit, Ashhar Aziz, Shashwat Bajpai, Vasu Sharma, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
Аннотация
Отчет Европейского агентства по борьбе с преступностью прогнозирует, что к 2026 году до 90% онлайн-контента может быть синтетически сгенерировано, что вызывает обеспокоенность среди политиков, предупреждающих, что «Генеративный ИИ может стать усилителем политической дезинформации. Совокупный эффект генеративного текста, изображений, видео и аудио может превзойти влияние любого отдельного модальности». В ответ на это законопроект Калифорнии AB 3211 предписывает маркировку изображений, видео и аудио, созданных с помощью ИИ. Однако сохраняются опасения относительно уязвимости техник невидимой маркировки к подделке и возможности их полного обхода злоумышленниками. Атаки на удаление водяных знаков с использованием генеративного ИИ, особенно недавно представленная визуальная парафразная атака, продемонстрировали способность полностью удалять водяные знаки, создавая парафраз исходного изображения. В данной статье представлена PECCAVI — первая техника маркировки изображений, устойчивая к визуальным парафразным атакам и не вызывающая искажений. В визуальных парафразных атаках изображение изменяется с сохранением его ключевых семантических областей, называемых Неплавящимися Точками (NMPs). PECCAVI стратегически встраивает водяные знаки в эти NMPs и использует многоканальную маркировку в частотной области. Также применяется шумовое полирование для противодействия попыткам обратного инжиниринга, направленным на обнаружение NMPs с целью нарушения встроенного водяного знака, что повышает долговечность. PECCAVI является модель-агностичной. Все соответствующие ресурсы и коды будут опубликованы в открытом доступе.
English
A report by the European Union Law Enforcement Agency predicts that by 2026,
up to 90 percent of online content could be synthetically generated, raising
concerns among policymakers, who cautioned that "Generative AI could act as a
force multiplier for political disinformation. The combined effect of
generative text, images, videos, and audio may surpass the influence of any
single modality." In response, California's Bill AB 3211 mandates the
watermarking of AI-generated images, videos, and audio. However, concerns
remain regarding the vulnerability of invisible watermarking techniques to
tampering and the potential for malicious actors to bypass them entirely.
Generative AI-powered de-watermarking attacks, especially the newly introduced
visual paraphrase attack, have shown an ability to fully remove watermarks,
resulting in a paraphrase of the original image. This paper introduces PECCAVI,
the first visual paraphrase attack-safe and distortion-free image watermarking
technique. In visual paraphrase attacks, an image is altered while preserving
its core semantic regions, termed Non-Melting Points (NMPs). PECCAVI
strategically embeds watermarks within these NMPs and employs multi-channel
frequency domain watermarking. It also incorporates noisy burnishing to counter
reverse-engineering efforts aimed at locating NMPs to disrupt the embedded
watermark, thereby enhancing durability. PECCAVI is model-agnostic. All
relevant resources and codes will be open-sourced.