DiffSeg30k: een benchmark voor multi-turn diffusiebewerkingen voor gelokaliseerde detectie van AIGC
DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection
November 24, 2025
Auteurs: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou
cs.AI
Samenvatting
Diffusiegebaseerde beeldbewerking maakt realistische aanpassingen van lokale beeldgebieden mogelijk, waardoor AI-gegenereerde content moeilijker te detecteren is. Bestaande benchmarks voor AIGC-detectie richten zich op het classificeren van volledige afbeeldingen en negeren de lokalisatie van diffusiegebaseerde bewerkingen. Wij introduceren DiffSeg30k, een openbaar beschikbare dataset van 30k diffusiebewerkte afbeeldingen met pixel-level annotaties, ontworpen om fijnmazige detectie te ondersteunen. DiffSeg30k kenmerkt zich door: 1) Beelden uit de praktijk – we verzamelen afbeeldingen of beeldprompts van COCO om de diversiteit aan real-world content te weerspiegelen; 2) Diverse diffusiemodellen – lokale bewerkingen met acht state-of-the-art diffusiemodellen; 3) Multi-turn bewerking – elke afbeelding ondergaat maximaal drie opeenvolgende bewerkingen om sequentiële bewerkingen uit de praktijk na te bootsen; en 4) Realistische bewerkingsscenario's – een op een vision-language model (VLM) gebaseerde pijplijn identificeert automatisch betekenisvolle regio's en genereert contextbewuste prompts voor toevoegingen, verwijderingen en attribuutwijzigingen. DiffSeg30k verschuift AIGC-detectie van binaire classificatie naar semantische segmentatie, waardoor gelijktijdige lokalisatie van bewerkingen en identificatie van de gebruikte bewerkingsmodellen mogelijk wordt. We evalueren drie baseline-segmentatiebenaderingen, wat significante uitdagingen blootlegt in semantische segmentatietaken, met name betreffende robuustheid tegen beeldvervormingen. Experimenten tonen ook aan dat segmentatiemodellen, ondanks training voor pixel-level lokalisatie, zeer betrouwbare whole-image classifiers voor diffusiebewerkingen blijken, waarbij ze gevestigde vervalsingsclassificatie overtreffen en groot potentieel tonen voor cross-generator generalisatie. Wij geloven dat DiffSeg30k onderzoek naar fijnmazige lokalisatie van AI-gegenereerde content zal bevorderen door de belofte en beperkingen van op segmentatie gebaseerde methoden te demonstreren. DiffSeg30k is vrijgegeven op: https://huggingface.co/datasets/Chaos2629/Diffseg30k
English
Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k