ChatPaper.aiChatPaper

AI-생성 이미지 워터마킹 기술의 취약성: 시각적 해석 공격에 대한 견고성 검토

The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks

August 19, 2024
저자: Niyar R Barman, Krish Sharma, Ashhar Aziz, Shashwat Bajpai, Shwetangshu Biswas, Vasu Sharma, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das
cs.AI

초록

텍스트에서 이미지로의 생성 시스템의 급격한 발전은 Stable Diffusion, Midjourney, Imagen, 그리고 DALL-E와 같은 모델을 통해 보여주어졌으며, 이는 그들의 잠재적 남용에 대한 우려를 증폭시켰다. 이에 대응하여 Meta와 Google과 같은 기업들은 AI로 생성된 이미지에 워터마킹 기술을 구현하여 잠재적으로 오도하는 시각 자료의 유통을 억제하기 위한 노력을 강화했다. 그러나 본 논문에서는 현재의 이미지 워터마킹 방법이 연약하며 시각적 해석 공격을 통해 우회될 수 있는 취약성을 주장한다. 제안된 시각적 해석기는 두 단계로 작동한다. 먼저, 최신의 이미지 캡션 시스템 중 하나인 KOSMOS-2를 사용하여 주어진 이미지에 대한 캡션을 생성한다. 그 다음, 원본 이미지와 생성된 캡션을 이미지 간 확산 시스템에 전달한다. 확산 파이프라인의 소음 제거 단계에서 시스템은 텍스트 캡션에 의해 안내되는 시각적으로 유사한 이미지를 생성한다. 결과 이미지는 시각적 해석이며 어떠한 워터마크도 포함되어 있지 않다. 우리의 경험적 결과는 시각적 해석 공격이 이미지로부터 워터마크를 효과적으로 제거할 수 있음을 입증한다. 본 논문은 기존의 워터마킹 기술이 시각적 해석 공격에 취약함을 경험적으로 드러내는 중요한 평가를 제공한다. 이 문제에 대한 해결책을 제안하지는 않지만, 이 논문은 더 견고한 워터마킹 기술의 개발을 우선시하기 위해 과학 커뮤니티에 대한 행동 요청으로 기능한다. 우리의 첫 번째 시각적 해석 데이터셋과 관련 코드는 공개적으로 이용 가능하다.
English
The rapid advancement of text-to-image generation systems, exemplified by models like Stable Diffusion, Midjourney, Imagen, and DALL-E, has heightened concerns about their potential misuse. In response, companies like Meta and Google have intensified their efforts to implement watermarking techniques on AI-generated images to curb the circulation of potentially misleading visuals. However, in this paper, we argue that current image watermarking methods are fragile and susceptible to being circumvented through visual paraphrase attacks. The proposed visual paraphraser operates in two steps. First, it generates a caption for the given image using KOSMOS-2, one of the latest state-of-the-art image captioning systems. Second, it passes both the original image and the generated caption to an image-to-image diffusion system. During the denoising step of the diffusion pipeline, the system generates a visually similar image that is guided by the text caption. The resulting image is a visual paraphrase and is free of any watermarks. Our empirical findings demonstrate that visual paraphrase attacks can effectively remove watermarks from images. This paper provides a critical assessment, empirically revealing the vulnerability of existing watermarking techniques to visual paraphrase attacks. While we do not propose solutions to this issue, this paper serves as a call to action for the scientific community to prioritize the development of more robust watermarking techniques. Our first-of-its-kind visual paraphrase dataset and accompanying code are publicly available.
PDF92November 17, 2024