IVY-FAKE : Un cadre explicable unifié et un benchmark pour la détection des contenus générés par IA dans les images et les vidéos
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
June 1, 2025
Auteurs: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI
Résumé
L'avancée rapide du contenu généré par l'intelligence artificielle (AIGC) dans les domaines visuels a conduit à la création d'images et de vidéos synthétiques hautement réalistes, grâce à des architectures génératives sophistiquées telles que les modèles basés sur la diffusion. Bien que ces percées ouvrent des opportunités substantielles, elles soulèvent simultanément des préoccupations critiques concernant l'authenticité et l'intégrité du contenu. De nombreuses méthodes actuelles de détection de l'AIGC fonctionnent comme des classificateurs binaires en boîte noire, offrant une interprétabilité limitée, et aucune approche ne permet de détecter à la fois les images et les vidéos dans un cadre unifié. Cette double limitation compromet la transparence des modèles, réduit leur fiabilité et entrave leur déploiement pratique. Pour relever ces défis, nous présentons IVY-FAKE, un nouvel ensemble de données unifié et à grande échelle, spécialement conçu pour la détection explicable et multimodale de l'AIGC. Contrairement aux benchmarks précédents, qui souffrent d'une couverture modale fragmentée et d'annotations éparses, IVY-FAKE contient plus de 150 000 échantillons d'entraînement richement annotés (images et vidéos) et 18 700 exemples d'évaluation, chacun accompagné d'un raisonnement détaillé en langage naturel allant au-delà des simples étiquettes binaires. Sur cette base, nous proposons Ivy Explainable Detector (IVY-XDETECTOR), une architecture unifiée de détection et d'explication de l'AIGC qui effectue conjointement une détection explicable pour les contenus image et vidéo. Notre modèle unifié vision-langage atteint des performances de pointe sur plusieurs benchmarks de détection d'images et de vidéos, mettant en évidence les avancées significatives permises par notre ensemble de données et notre cadre de modélisation. Nos données sont publiquement disponibles à l'adresse suivante : https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in
visual domains has resulted in highly realistic synthetic images and videos,
driven by sophisticated generative frameworks such as diffusion-based
architectures. While these breakthroughs open substantial opportunities, they
simultaneously raise critical concerns about content authenticity and
integrity. Many current AIGC detection methods operate as black-box binary
classifiers, which offer limited interpretability, and no approach supports
detecting both images and videos in a unified framework. This dual limitation
compromises model transparency, reduces trustworthiness, and hinders practical
deployment. To address these challenges, we introduce IVY-FAKE , a novel,
unified, and large-scale dataset specifically designed for explainable
multimodal AIGC detection. Unlike prior benchmarks, which suffer from
fragmented modality coverage and sparse annotations, IVY-FAKE contains over
150,000 richly annotated training samples (images and videos) and 18,700
evaluation examples, each accompanied by detailed natural-language reasoning
beyond simple binary labels. Building on this, we propose Ivy Explainable
Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture
that jointly performs explainable detection for both image and video content.
Our unified vision-language model achieves state-of-the-art performance across
multiple image and video detection benchmarks, highlighting the significant
advancements enabled by our dataset and modeling framework. Our data is
publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.