ChatPaper.aiChatPaper

DiffSeg30k:局所的AIGC検出のためのマルチターン拡散編集ベンチマーク

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

November 24, 2025
著者: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou
cs.AI

要旨

拡散モデルに基づく編集技術は、画像の局所領域を現実的に改変することを可能にし、AI生成コンテンツの検出を困難にしている。既存のAIGC検出ベンチマークは画像全体の分類に焦点を当てており、拡散ベース編集の局所化を見落としている。本研究では、細粒度検出を支援するために設計された、ピクセルレベル注釈付きの3万枚の拡散編集画像からなる公開データセットDiffSeg30kを提案する。DiffSeg30kの特徴は以下の通りである:1) 実世界画像—実世界のコンテンツ多様性を反映するため、COCOから画像または画像プロンプトを収集;2) 多様な拡散モデル—8つのSOTA拡散モデルを用いた局所的編集;3) マルチターン編集—実世界の連続編集を模倣するため、各画像は最大3段階の逐次編集を実施;4) 現実的な編集シナリオ—VLMベースのパイプラインにより意味領域を自動識別し、追加・削除・属性変更を含む文脈考慮型プロンプトを生成。DiffSeg30kはAIGC検出を二値分類からセマンティックセグメンテーションへ転換し、編集箇所の局所化と編集モデルの特定を同時に可能にする。3つのベースラインセグメンテーション手法を評価した結果、特に画像歪みに対する頑健性に関して、セマンティックセグメンテーション課題における重大な課題が明らかになった。また実験により、ピクセルレベル局所化のために訓練されたセグメンテーションモデルが、拡散編集の信頼性高い画像全体分類器として機能し、既存の偽造分類器を凌駕するとともに、クロスジェネレータ汎化において大きな可能性を示すことが判明した。DiffSeg30kはセグメンテーションベース手法の可能性と限界を実証することで、AI生成コンテンツの細粒度局所化研究を推進すると確信する。DiffSeg30kはhttps://huggingface.co/datasets/Chaos2629/Diffseg30k で公開されている。
English
Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k
PDF32December 1, 2025