ChatPaper.aiChatPaper

DiffSeg30k: Un punto de referencia para la edición difusiva multisesión en la detección localizada de AIGC

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

November 24, 2025
Autores: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou
cs.AI

Resumen

La edición basada en difusión permite la modificación realista de regiones locales de imágenes, dificultando la detección de contenido generado por IA. Los benchmarks de detección de AIGC existentes se centran en clasificar imágenes completas, pasando por alto la localización de ediciones basadas en difusión. Presentamos DiffSeg30k, un conjunto de datos público de 30k imágenes editadas por difusión con anotaciones a nivel de píxel, diseñado para apoyar la detección de grano fino. DiffSeg30k presenta: 1) Imágenes en entornos reales--recopilamos imágenes o prompts de imágenes de COCO para reflejar la diversidad de contenido del mundo real; 2) Modelos de difusión diversos--ediciones locales utilizando ocho modelos de difusión SOTA; 3) Edición multiturno--cada imagen se somete hasta tres ediciones secuenciales para imitar la edición secuencial del mundo real; y 4) Escenarios de edición realistas--un pipeline basado en un modelo de visión y lenguaje (VLM) identifica automáticamente regiones significativas y genera prompts conscientes del contexto que cubren adiciones, eliminaciones y cambios de atributos. DiffSeg30k traslada la detección de AIGC de la clasificación binaria a la segmentación semántica, permitiendo la localización simultánea de ediciones y la identificación de los modelos de edición. Evaluamos tres enfoques de segmentación baseline, revelando desafíos significativos en tareas de segmentación semántica, particularmente en cuanto a la robustez frente a distorsiones de imagen. Los experimentos también revelan que los modelos de segmentación, a pesar de estar entrenados para localización a nivel de píxel, surgen como clasificadores de imágenes completas altamente confiables para ediciones por difusión, superando a clasificadores de falsificación establecidos mientras muestran un gran potencial en la generalización cruzada entre generadores. Creemos que DiffSeg30k impulsará la investigación en la localización de grano fino del contenido generado por IA al demostrar las promesas y limitaciones de los métodos basados en segmentación. DiffSeg30k se publica en: https://huggingface.co/datasets/Chaos2629/Diffseg30k
English
Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k
PDF32December 1, 2025