ChatPaper.aiChatPaper

DiffSeg30k : Un benchmark d'édition par diffusion multi-tours pour la détection localisée de contenu généré par IA

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

November 24, 2025
papers.authors: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou
cs.AI

papers.abstract

L'édition par diffusion permet une modification réaliste de régions locales d'images, rendant les contenus générés par IA plus difficiles à détecter. Les benchmarks existants de détection AIGC se concentrent sur la classification d'images entières, négligeant la localisation des modifications basées sur la diffusion. Nous présentons DiffSeg30k, un jeu de données public de 30k images modifiées par diffusion avec annotations au niveau pixel, conçu pour supporter une détection fine. DiffSeg30k présente : 1) Des images en conditions réelles—nous collectons des images ou des prompts d'images depuis COCO pour refléter la diversité du contenu réel ; 2) Des modèles de diffusion diversifiés—modifications locales utilisant huit modèles de diffusion state-of-the-art ; 3) Édition multi-étapes—chaque image subit jusqu'à trois modifications séquentielles pour imiter l'édition séquentielle réelle ; et 4) Scénarios d'édition réalistes—un pipeline basé sur un modèle vision-langage (VLM) identifie automatiquement les régions significatives et génère des prompts conscients du contexte couvrant ajouts, suppressions et changements d'attributs. DiffSeg30k fait évoluer la détection AIGC de la classification binaire vers la segmentation sémantique, permettant la localisation simultanée des modifications et l'identification des modèles d'édition. Nous évaluons trois approches de segmentation de référence, révélant des défis significatifs dans les tâches de segmentation sémantique, particulièrement concernant la robustesse aux distorsions d'image. Les expériences révèlent aussi que les modèles de segmentation, bien qu'entraînés pour la localisation au niveau pixel, deviennent des classificateurs très fiables d'images entières pour les modifications par diffusion, surpassant les classificateurs de falsification établis tout en montrant un grand potentiel de généralisation cross-générateur. Nous croyons que DiffSeg30k fera progresser la recherche sur la localisation fine des contenus générés par IA en démontrant les promesses et limites des méthodes basées sur la segmentation. DiffSeg30k est disponible à : https://huggingface.co/datasets/Chaos2629/Diffseg30k
English
Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k
PDF32December 1, 2025