DiffSeg30k: Um Benchmark de Edição por Difusão em Múltiplas Etapas para Detecção Localizada de AIGC

Resumo

A edição baseada em difusão permite a modificação realista de regiões locais de imagens, tornando o conteúdo gerado por IA mais difícil de detectar. Os atuais benchmarks de detecção de AIGC concentram-se na classificação de imagens inteiras, negligenciando a localização de edições baseadas em difusão. Apresentamos o DiffSeg30k, um conjunto de dados publicamente disponível com 30 mil imagens editadas por difusão e anotações a nível de pixel, projetado para suportar a detecção de granularidade fina. O DiffSeg30k possui: 1) Imagens do mundo real—coletamos imagens ou prompts de imagem do COCO para refletir a diversidade de conteúdo do mundo real; 2) Modelos de difusão diversos—edições locais utilizando oito modelos de difusão state-of-the-art (SOTA); 3) Edição multi-etapas—cada imagem passa por até três edições sequenciais para simular a edição sequencial do mundo real; e 4) Cenários de edição realistas—um *pipeline* baseado em um modelo de visão e linguagem (VLM) identifica automaticamente regiões significativas e gera *prompts* contextualmente conscientes que cobrem adições, remoções e alterações de atributos. O DiffSeg30k muda a detecção de AIGC da classificação binária para a segmentação semântica, permitindo a localização simultânea das edições e a identificação dos modelos de edição. Avaliamos três abordagens de segmentação de base, revelando desafios significativos em tarefas de segmentação semântica, particularmente no que diz respeito à robustez a distorções de imagem. Os experimentos também revelam que os modelos de segmentação, apesar de serem treinados para localização a nível de pixel, surgem como classificadores de imagem inteira altamente confiáveis para edições de difusão, superando classificadores de falsificação estabelecidos enquanto mostram grande potencial na generalização cruzada entre geradores. Acreditamos que o DiffSeg30k avançará a pesquisa na localização de granularidade fina de conteúdo gerado por IA ao demonstrar a promessa e as limitações dos métodos baseados em segmentação. O DiffSeg30k foi lançado em: https://huggingface.co/datasets/Chaos2629/Diffseg30k

English

Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k

DiffSeg30k: Um Benchmark de Edição por Difusão em Múltiplas Etapas para Detecção Localizada de AIGC

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

Resumo

Support