IVY-FAKE: Ein einheitliches erklärbares Framework und Benchmark für die Erkennung von Bild- und Video-AIGC
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
June 1, 2025
Autoren: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI
Zusammenfassung
Die rasante Entwicklung von künstlich generierten Inhalten (Artificial Intelligence Generated Content, AIGC) in visuellen Domänen hat zu hochrealistischen synthetischen Bildern und Videos geführt, die durch fortschrittliche generative Frameworks wie diffusionsbasierte Architekturen angetrieben werden. Während diese Durchbrüche erhebliche Möglichkeiten eröffnen, werfen sie gleichzeitig kritische Bedenken hinsichtlich der Authentizität und Integrität von Inhalten auf. Viele derzeitige AIGC-Erkennungsmethoden fungieren als Black-Box-Binärklassifikatoren, die nur begrenzte Interpretierbarkeit bieten, und kein Ansatz unterstützt die Erkennung sowohl von Bildern als auch von Videos in einem einheitlichen Framework. Diese doppelte Einschränkung beeinträchtigt die Transparenz der Modelle, verringert die Vertrauenswürdigkeit und behindert die praktische Implementierung. Um diese Herausforderungen zu bewältigen, stellen wir IVY-FAKE vor, einen neuartigen, einheitlichen und groß angelegten Datensatz, der speziell für die erklärbare multimodale AIGC-Erkennung entwickelt wurde. Im Gegensatz zu früheren Benchmarks, die unter fragmentierter Modalitätsabdeckung und spärlichen Annotationen leiden, enthält IVY-FAKE über 150.000 reich annotierte Trainingsbeispiele (Bilder und Videos) und 18.700 Evaluierungsbeispiele, die jeweils von detaillierten natürlichen Sprachbegründungen über einfache Binärlabels hinaus begleitet werden. Darauf aufbauend schlagen wir den Ivy Explainable Detector (IVY-XDETECTOR) vor, eine einheitliche AIGC-Erkennungs- und Erklärungsarchitektur, die gemeinsam erklärbare Erkennung für sowohl Bild- als auch Videoinhalte durchführt. Unser einheitliches Vision-Sprache-Modell erzielt state-of-the-art Leistungen über mehrere Bild- und Videoerkennungs-Benchmarks hinweg und unterstreicht die bedeutenden Fortschritte, die durch unseren Datensatz und unser Modellierungsframework ermöglicht werden. Unsere Daten sind öffentlich verfügbar unter https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in
visual domains has resulted in highly realistic synthetic images and videos,
driven by sophisticated generative frameworks such as diffusion-based
architectures. While these breakthroughs open substantial opportunities, they
simultaneously raise critical concerns about content authenticity and
integrity. Many current AIGC detection methods operate as black-box binary
classifiers, which offer limited interpretability, and no approach supports
detecting both images and videos in a unified framework. This dual limitation
compromises model transparency, reduces trustworthiness, and hinders practical
deployment. To address these challenges, we introduce IVY-FAKE , a novel,
unified, and large-scale dataset specifically designed for explainable
multimodal AIGC detection. Unlike prior benchmarks, which suffer from
fragmented modality coverage and sparse annotations, IVY-FAKE contains over
150,000 richly annotated training samples (images and videos) and 18,700
evaluation examples, each accompanied by detailed natural-language reasoning
beyond simple binary labels. Building on this, we propose Ivy Explainable
Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture
that jointly performs explainable detection for both image and video content.
Our unified vision-language model achieves state-of-the-art performance across
multiple image and video detection benchmarks, highlighting the significant
advancements enabled by our dataset and modeling framework. Our data is
publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.