ChatPaper.aiChatPaper

IVY-FAKE: Een Verenigd Uitlegbare Framework en Benchmark voor Detectie van Beeld- en Video-AIGC

IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection

June 1, 2025
Auteurs: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI

Samenvatting

De snelle vooruitgang van door kunstmatige intelligentie gegenereerde inhoud (AIGC) in visuele domeinen heeft geleid tot zeer realistische synthetische afbeeldingen en video's, aangedreven door geavanceerde generatieve frameworks zoals op diffusie gebaseerde architecturen. Hoewel deze doorbraken aanzienlijke mogelijkheden bieden, roepen ze tegelijkertijd kritieke zorgen op over de authenticiteit en integriteit van inhoud. Veel huidige AIGC-detectiemethoden functioneren als black-box binaire classificatoren, die beperkte interpreteerbaarheid bieden, en geen enkele aanpak ondersteunt het detecteren van zowel afbeeldingen als video's in een uniform raamwerk. Deze dubbele beperking ondermijnt de transparantie van het model, vermindert de betrouwbaarheid en belemmert de praktische implementatie. Om deze uitdagingen aan te pakken, introduceren we IVY-FAKE, een nieuw, uniform en grootschalig dataset die specifiek is ontworpen voor interpreteerbare multimodale AIGC-detectie. In tegenstelling tot eerdere benchmarks, die lijden onder gefragmenteerde modaliteitsdekking en schaarse annotaties, bevat IVY-FAKE meer dan 150.000 rijk geannoteerde trainingsvoorbeelden (afbeeldingen en video's) en 18.700 evaluatievoorbeelden, elk vergezeld van gedetailleerde natuurlijke-taalbeweringen die verder gaan dan eenvoudige binaire labels. Hierop voortbouwend stellen we de Ivy Explainable Detector (IVY-XDETECTOR) voor, een uniforme AIGC-detectie- en interpreteerbare architectuur die gezamenlijk interpreteerbare detectie uitvoert voor zowel afbeeldingen als video-inhoud. Ons uniforme visie-taalmodel behaalt state-of-the-art prestaties op meerdere afbeeldingen- en video-detectiebenchmarks, wat de significante vooruitgang benadrukt die mogelijk wordt gemaakt door onze dataset en modelleringsframework. Onze data is publiekelijk beschikbaar op https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in visual domains has resulted in highly realistic synthetic images and videos, driven by sophisticated generative frameworks such as diffusion-based architectures. While these breakthroughs open substantial opportunities, they simultaneously raise critical concerns about content authenticity and integrity. Many current AIGC detection methods operate as black-box binary classifiers, which offer limited interpretability, and no approach supports detecting both images and videos in a unified framework. This dual limitation compromises model transparency, reduces trustworthiness, and hinders practical deployment. To address these challenges, we introduce IVY-FAKE , a novel, unified, and large-scale dataset specifically designed for explainable multimodal AIGC detection. Unlike prior benchmarks, which suffer from fragmented modality coverage and sparse annotations, IVY-FAKE contains over 150,000 richly annotated training samples (images and videos) and 18,700 evaluation examples, each accompanied by detailed natural-language reasoning beyond simple binary labels. Building on this, we propose Ivy Explainable Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture that jointly performs explainable detection for both image and video content. Our unified vision-language model achieves state-of-the-art performance across multiple image and video detection benchmarks, highlighting the significant advancements enabled by our dataset and modeling framework. Our data is publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
PDF134June 3, 2025