Peccavi: AI生成画像のための視覚的言い換え攻撃に安全で歪みのない画像透かし技術
Peccavi: Visual Paraphrase Attack Safe and Distortion Free Image Watermarking Technique for AI-Generated Images
June 28, 2025
著者: Shreyas Dixit, Ashhar Aziz, Shashwat Bajpai, Vasu Sharma, Aman Chadha, Vinija Jain, Amitava Das
cs.AI
要旨
欧州連合法執行機関の報告書によると、2026年までにオンラインコンテンツの最大90%が合成生成される可能性があると予測されており、政策立案者たちの懸念を引き起こしています。彼らは「生成AIが政治的な偽情報の増幅装置として機能する可能性がある」と警告し、「生成テキスト、画像、動画、音声の組み合わせ効果は、単一のモダリティの影響を上回るかもしれない」と指摘しています。これに対応して、カリフォルニア州の法案AB 3211では、AI生成の画像、動画、音声に透かしを付けることを義務付けています。しかし、不可視透かし技術の改ざんに対する脆弱性や、悪意のある行為者が完全にこれを回避する可能性についての懸念が残っています。特に、新たに導入された視覚的言い換え攻撃を含む生成AIを利用した透かし除去攻撃は、透かしを完全に除去し、元の画像の言い換えを引き起こす能力を示しています。本論文では、視覚的言い換え攻撃に耐え、歪みのない画像透かし技術であるPECCAVIを初めて紹介します。視覚的言い換え攻撃では、画像の核心的な意味領域(Non-Melting Points、NMPs)を保持しながら画像が変更されます。PECCAVIは、これらのNMPs内に戦略的に透かしを埋め込み、マルチチャネル周波数領域透かしを採用しています。また、埋め込まれた透かしを破壊するためにNMPsを特定しようとするリバースエンジニアリングの試みに対抗するために、ノイジーバーニッシングを組み込むことで耐久性を向上させています。PECCAVIはモデルに依存しません。すべての関連リソースとコードはオープンソース化されます。
English
A report by the European Union Law Enforcement Agency predicts that by 2026,
up to 90 percent of online content could be synthetically generated, raising
concerns among policymakers, who cautioned that "Generative AI could act as a
force multiplier for political disinformation. The combined effect of
generative text, images, videos, and audio may surpass the influence of any
single modality." In response, California's Bill AB 3211 mandates the
watermarking of AI-generated images, videos, and audio. However, concerns
remain regarding the vulnerability of invisible watermarking techniques to
tampering and the potential for malicious actors to bypass them entirely.
Generative AI-powered de-watermarking attacks, especially the newly introduced
visual paraphrase attack, have shown an ability to fully remove watermarks,
resulting in a paraphrase of the original image. This paper introduces PECCAVI,
the first visual paraphrase attack-safe and distortion-free image watermarking
technique. In visual paraphrase attacks, an image is altered while preserving
its core semantic regions, termed Non-Melting Points (NMPs). PECCAVI
strategically embeds watermarks within these NMPs and employs multi-channel
frequency domain watermarking. It also incorporates noisy burnishing to counter
reverse-engineering efforts aimed at locating NMPs to disrupt the embedded
watermark, thereby enhancing durability. PECCAVI is model-agnostic. All
relevant resources and codes will be open-sourced.