ChatPaper.aiChatPaper

DiffSeg30k: un benchmark di modifica con diffusione multi-turn per il rilevamento localizzato di AIGC

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

November 24, 2025
Autori: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou
cs.AI

Abstract

L'editing basato su modelli di diffusione consente una modifica realistica di regioni locali dell'immagine, rendendo più difficile il rilevamento di contenuti generati dall'IA. Gli attuali benchmark per il rilevamento di AIGC si concentrano sulla classificazione di immagini intere, tralasciando la localizzazione delle modifiche basate sulla diffusione. Introduciamo DiffSeg30k, un dataset pubblico di 30.000 immagini modificate con diffusione, dotato di annotazioni a livello di pixel, progettato per supportare il rilevamento granulare. DiffSeg30k presenta: 1) Immagini in contesti reali - raccogliamo immagini o prompt da COCO per riflettere la diversità dei contenuti del mondo reale; 2) Modelli di diffusione diversificati - modifiche locali utilizzando otto modelli di diffusione all'avanguardia; 3) Editing a più fasi - ogni immagine subisce fino a tre modifiche sequenziali per simulare l'editing sequenziale reale; e 4) Scenari di editing realistici - una pipeline basata su un modello visione-linguaggio (VLM) identifica automaticamente regioni significative e genera prompt consapevoli del contesto che coprono aggiunte, rimozioni e cambiamenti di attributi. DiffSeg30k sposta il rilevamento di AIGC dalla classificazione binaria alla segmentazione semantica, consentendo la localizzazione simultanea delle modifiche e l'identificazione dei modelli di editing. Valutiamo tre approcci baseline di segmentazione, rivelando sfide significative nei compiti di segmentazione semantica, in particolare per quanto riguarda la robustezza alle distorsioni d'immagine. Gli esperimenti mostrano anche che i modelli di segmentazione, sebbene addestrati per la localizzazione a livello di pixel, emergono come classificatori di immagini intere altamente affidabili per le modifiche da diffusione, superando i classificatori di falsificazione consolidati e mostrando un grande potenziale nella generalizzazione cross-generatore. Riteniamo che DiffSeg30k farà avanzare la ricerca nella localizzazione granulare dei contenuti generati dall'IA, dimostrando promesse e limiti dei metodi basati sulla segmentazione. DiffSeg30k è rilasciato su: https://huggingface.co/datasets/Chaos2629/Diffseg30k
English
Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k
PDF32December 1, 2025