ChatPaper.aiChatPaper

DiffSeg30k: 국소적 AIGC 탐지를 위한 다중 턴 확산 편집 벤치마크

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

November 24, 2025
저자: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou
cs.AI

초록

확산 기반 편집 기술은 이미지의 국부 영역을 사실적으로 수정할 수 있어 AI 생성 콘텐츠의 탐지를 더욱 어렵게 만듭니다. 기존 AIGC 탐지 벤치마크는 전체 이미지 분류에 중점을 두어 확산 기반 편집의 위치 특정(localization)을 간과해왔습니다. 본 연구에서는 정교한 탐지를 지원하기 위해 픽셀 수준 주석이 달린 3만 장의 확산 편집 이미지로 구성된 공개 데이터셋인 DiffSeg30k를 소개합니다. DiffSeg30k의 특징은 다음과 같습니다: 1) 실제 환경 이미지—실제 세계의 콘텐츠 다양성을 반영하기 위해 COCO에서 이미지 또는 이미지 프롬프트를 수집함; 2) 다양한 확산 모델—8개의 최첨단(SOTA) 확산 모델을 이용한 국부 편집; 3) 다중 단계 편집—실제 순차 편집을 모방하기 위해 각 이미지에 최대 세 번의 순차적 편집 적용; 4) 현실적인 편집 시나리오—시각-언어 모델(VLM) 기반 파이프라인으로 의미 있는 영역을 자동 식별하고 추가, 제거, 속성 변경을 포괄하는 콘텍스트 인식 프롬프트를 생성함. DiffSeg30k는 AIGC 탐지를 이진 분류에서 의미 분할(semantic segmentation)로 전환하여 편집 위치와 함께 사용된 편집 모델을 동시에 식별할 수 있게 합니다. 우리는 세 가지 기준 분할 접근법에 대한 벤치마크를 수행하여, 특히 이미지 왜곡에 대한 강건성 측면에서 의미 분할 과제의 상당한 난이도를 확인했습니다. 실험 결과, 픽셀 수준 위치 특정을 위해 훈련된 분할 모델이 확산 편집에 대해 매우 신뢰할만한 전체 이미지 분류기로도 작동하며, 기존 위조 분류기를 능가하는 동시에 생성 모델 간 일반화에서 큰 잠재력을 보여주었습니다. 우리는 DiffSeg30k가 분할 기반 방법의 가능성과 한계를 입증함으로써 AI 생성 콘텐츠의 정교한 위치 특정 연구를 발전시킬 것이라고 믿습니다. DiffSeg30k는 다음에서 공개되었습니다: https://huggingface.co/datasets/Chaos2629/Diffseg30k
English
Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k
PDF32December 1, 2025