IVY-FAKE: Een Verenigd Uitlegbare Framework en Benchmark voor Detectie van Beeld- en Video-AIGC
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
June 1, 2025
Auteurs: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI
Samenvatting
De snelle vooruitgang van door kunstmatige intelligentie gegenereerde inhoud (AIGC) in visuele domeinen heeft geleid tot zeer realistische synthetische afbeeldingen en video's, aangedreven door geavanceerde generatieve frameworks zoals op diffusie gebaseerde architecturen. Hoewel deze doorbraken aanzienlijke mogelijkheden bieden, roepen ze tegelijkertijd kritieke zorgen op over de authenticiteit en integriteit van inhoud. Veel huidige AIGC-detectiemethoden functioneren als black-box binaire classificatoren, die beperkte interpreteerbaarheid bieden, en geen enkele aanpak ondersteunt het detecteren van zowel afbeeldingen als video's in een uniform raamwerk. Deze dubbele beperking ondermijnt de transparantie van het model, vermindert de betrouwbaarheid en belemmert de praktische implementatie. Om deze uitdagingen aan te pakken, introduceren we IVY-FAKE, een nieuw, uniform en grootschalig dataset die specifiek is ontworpen voor interpreteerbare multimodale AIGC-detectie. In tegenstelling tot eerdere benchmarks, die lijden onder gefragmenteerde modaliteitsdekking en schaarse annotaties, bevat IVY-FAKE meer dan 150.000 rijk geannoteerde trainingsvoorbeelden (afbeeldingen en video's) en 18.700 evaluatievoorbeelden, elk vergezeld van gedetailleerde natuurlijke-taalbeweringen die verder gaan dan eenvoudige binaire labels. Hierop voortbouwend stellen we de Ivy Explainable Detector (IVY-XDETECTOR) voor, een uniforme AIGC-detectie- en interpreteerbare architectuur die gezamenlijk interpreteerbare detectie uitvoert voor zowel afbeeldingen als video-inhoud. Ons uniforme visie-taalmodel behaalt state-of-the-art prestaties op meerdere afbeeldingen- en video-detectiebenchmarks, wat de significante vooruitgang benadrukt die mogelijk wordt gemaakt door onze dataset en modelleringsframework. Onze data is publiekelijk beschikbaar op https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in
visual domains has resulted in highly realistic synthetic images and videos,
driven by sophisticated generative frameworks such as diffusion-based
architectures. While these breakthroughs open substantial opportunities, they
simultaneously raise critical concerns about content authenticity and
integrity. Many current AIGC detection methods operate as black-box binary
classifiers, which offer limited interpretability, and no approach supports
detecting both images and videos in a unified framework. This dual limitation
compromises model transparency, reduces trustworthiness, and hinders practical
deployment. To address these challenges, we introduce IVY-FAKE , a novel,
unified, and large-scale dataset specifically designed for explainable
multimodal AIGC detection. Unlike prior benchmarks, which suffer from
fragmented modality coverage and sparse annotations, IVY-FAKE contains over
150,000 richly annotated training samples (images and videos) and 18,700
evaluation examples, each accompanied by detailed natural-language reasoning
beyond simple binary labels. Building on this, we propose Ivy Explainable
Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture
that jointly performs explainable detection for both image and video content.
Our unified vision-language model achieves state-of-the-art performance across
multiple image and video detection benchmarks, highlighting the significant
advancements enabled by our dataset and modeling framework. Our data is
publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.