DiffSeg30k: Eine Benchmark für mehrstufige Diffusionsbearbeitung zur lokalisierten KI-generierten Inhalte-Erkennung
DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection
November 24, 2025
papers.authors: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou
cs.AI
papers.abstract
Diffusionsbasierte Bearbeitung ermöglicht realistische Modifikationen lokaler Bildbereiche, wodurch KI-generierte Inhalte schwerer zu erkennen sind. Bestehende Benchmarks für die AIGC-Erkennung konzentrieren sich auf die Klassifizierung gesamter Bilder und übersehen die Lokalisierung diffusionsbasierter Bearbeitungen. Wir stellen DiffSeg30k vor, einen öffentlich verfügbaren Datensatz mit 30.000 diffusionsbearbeiteten Bildern und Pixel-level-Annotationen, der zur Unterstützung feingranularer Detektion entwickelt wurde. DiffSeg30k zeichnet sich aus durch: 1) Bilder aus realen Umgebungen – wir sammeln Bilder oder Bildprompts aus COCO, um die reale Inhaltsvielfalt widerzuspiegeln; 2) Vielfältige Diffusionsmodelle – lokale Bearbeitungen unter Verwendung von acht state-of-the-art Diffusionsmodellen; 3) Mehrstufige Bearbeitung – jedes Bild durchläuft bis zu drei sequenzielle Bearbeitungen, um reale sequenzielle Bearbeitungsprozesse nachzubilden; und 4) Realistische Bearbeitungsszenarien – eine auf Vision-Language-Modellen (VLM) basierende Pipeline identifiziert automatisch bedeutungsvolle Regionen und erzeugt kontextbewusste Prompts für Ergänzungen, Entfernungen und Attributänderungen. DiffSeg30k verlagert die AIGC-Erkennung von binärer Klassifikation hin zur semantischen Segmentierung und ermöglicht gleichzeitig die Lokalisierung von Bearbeitungen sowie die Identifizierung der verwendeten Bearbeitungsmodelle. Wir evaluieren drei Baseline-Segmentierungsansätze, die erhebliche Herausforderungen bei semantischen Segmentierungsaufgaben aufdecken, insbesondere hinsichtlich der Robustheit gegenüber Bildverzerrungen. Experimente zeigen zudem, dass Segmentierungsmodelle – obwohl für die Pixel-level-Lokalisierung trainiert – äußerst zuverlässige Whole-Image-Klassifikatoren für Diffusionsbearbeitungen werden und etablierte Fälschungsklassifikatoren übertreffen, während sie großes Potenzial für die Generalisierung über verschiedene Generatoren hinweg zeigen. Wir sind überzeugt, dass DiffSeg30k die Forschung zur feingranularen Lokalisierung KI-generierter Inhalte voranbringen wird, indem es die Möglichkeiten und Grenzen segmentierungsbasierter Methoden aufzeigt. DiffSeg30k ist verfügbar unter: https://huggingface.co/datasets/Chaos2629/Diffseg30k
English
Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k