Peccavi: Técnica de Marca d'Água de Imagem Segura e Livre de Distorção para Ataques de Paráfrase Visual em Imagens Geradas por IA
Peccavi: Visual Paraphrase Attack Safe and Distortion Free Image Watermarking Technique for AI-Generated Images
June 28, 2025
Autores: Shreyas Dixit, Ashhar Aziz, Shashwat Bajpai, Vasu Sharma, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
Resumo
Um relatório da Agência de Aplicação da Lei da União Europeia prevê que, até 2026, até 90% do conteúdo online poderá ser gerado sinteticamente, levantando preocupações entre os formuladores de políticas, que alertaram que "a IA generativa pode atuar como um multiplicador de força para a desinformação política. O efeito combinado de texto, imagens, vídeos e áudio gerados pode superar a influência de qualquer modalidade única." Em resposta, o Projeto de Lei AB 3211 da Califórnia exige a marcação d'água de imagens, vídeos e áudios gerados por IA. No entanto, persistem preocupações sobre a vulnerabilidade das técnicas de marcação d'água invisível à manipulação e a possibilidade de atores maliciosos contorná-las completamente. Ataques de remoção de marcação d'água impulsionados por IA generativa, especialmente o recém-introduzido ataque de paráfrase visual, demonstraram a capacidade de remover completamente as marcas d'água, resultando em uma paráfrase da imagem original. Este artigo apresenta o PECCAVI, a primeira técnica de marcação d'água de imagens segura contra ataques de paráfrase visual e livre de distorções. Em ataques de paráfrase visual, uma imagem é alterada enquanto preserva suas regiões semânticas centrais, denominadas Pontos Não Derretíveis (NMPs, na sigla em inglês). O PECCAVI embarca estrategicamente as marcas d'água dentro desses NMPs e emprega marcação d'água no domínio de frequência multicanal. Ele também incorpora o polimento ruidoso para contrapor esforços de engenharia reversa destinados a localizar NMPs para perturbar a marca d'água embutida, aumentando assim a durabilidade. O PECCAVI é independente de modelo. Todos os recursos e códigos relevantes serão disponibilizados como código aberto.
English
A report by the European Union Law Enforcement Agency predicts that by 2026,
up to 90 percent of online content could be synthetically generated, raising
concerns among policymakers, who cautioned that "Generative AI could act as a
force multiplier for political disinformation. The combined effect of
generative text, images, videos, and audio may surpass the influence of any
single modality." In response, California's Bill AB 3211 mandates the
watermarking of AI-generated images, videos, and audio. However, concerns
remain regarding the vulnerability of invisible watermarking techniques to
tampering and the potential for malicious actors to bypass them entirely.
Generative AI-powered de-watermarking attacks, especially the newly introduced
visual paraphrase attack, have shown an ability to fully remove watermarks,
resulting in a paraphrase of the original image. This paper introduces PECCAVI,
the first visual paraphrase attack-safe and distortion-free image watermarking
technique. In visual paraphrase attacks, an image is altered while preserving
its core semantic regions, termed Non-Melting Points (NMPs). PECCAVI
strategically embeds watermarks within these NMPs and employs multi-channel
frequency domain watermarking. It also incorporates noisy burnishing to counter
reverse-engineering efforts aimed at locating NMPs to disrupt the embedded
watermark, thereby enhancing durability. PECCAVI is model-agnostic. All
relevant resources and codes will be open-sourced.