ChatPaper.aiChatPaper

DiffSeg30k: Многоходовый эталонный набор данных для обнаружения локализованного контента, созданного ИИ, с использованием диффузионного редактирования

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

November 24, 2025
Авторы: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou
cs.AI

Аннотация

Редактирование на основе диффузионных моделей позволяет реалистично модифицировать локальные области изображений, что затрудняет обнаружение контента, созданного ИИ. Существующие бенчмарки для детекции AIGC ориентированы на классификацию изображений в целом, упуская из виду локализацию правок, выполненных диффузионными методами. Мы представляем DiffSeg30k — общедоступный набор данных, содержащий 30 тыс. диффузионно-отредактированных изображений с пиксельными аннотациями, предназначенный для решения задач детекции на детальном уровне. DiffSeg30k обладает следующими особенностями: 1) Изображения из реального мира — мы собираем изображения или текстовые промпты из набора COCO для отражения разнообразия реального контента; 2) Разнообразие диффузионных моделей — локальное редактирование с использованием восьми передовых диффузионных моделей; 3) Многошаговое редактирование — каждое изображение подвергается до трёх последовательных правок для имитации реального процесса редактирования; 4) Реалистичные сценарии редактирования — пайплайн на основе визуально-языковой модели автоматически определяет значимые области и генерирует контекстно-зависимые промпты, охватывающие добавления, удаления и изменения атрибутов. DiffSeg30k переводит детекцию AIGC из бинарной классификации в семантическую сегментацию, позволяя одновременно локализовать правки и идентифицировать модели редактирования. Мы тестируем три базовых подхода к сегментации, выявляя существенные сложности в задачах семантической сегментации, особенно в отношении устойчивости к искажениям изображений. Эксперименты также показывают, что модели сегментации, несмотря на обучение для пиксельной локализации, демонстрируют высокую надёжность как классификаторы диффузионных правок на уровне всего изображения, превосходя существующие классификаторы подделок и проявляя значительный потенциал в кросс-генераторной генерализации. Мы полагаем, что DiffSeg30k будет способствовать развитию исследований в области точной локализации контента, созданного ИИ, демонстрируя перспективы и ограничения методов на основе сегментации. DiffSeg30k доступен по адресу: https://huggingface.co/datasets/Chaos2629/Diffseg30k.
English
Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k
PDF32December 1, 2025