IVY-FAKE: Ein einheitliches erklärbares Framework und Benchmark für die Erkennung von Bild- und Video-AIGC

papers.abstract

Die rasante Entwicklung von künstlich generierten Inhalten (Artificial Intelligence Generated Content, AIGC) in visuellen Domänen hat zu hochrealistischen synthetischen Bildern und Videos geführt, die durch fortschrittliche generative Frameworks wie diffusionsbasierte Architekturen angetrieben werden. Während diese Durchbrüche erhebliche Möglichkeiten eröffnen, werfen sie gleichzeitig kritische Bedenken hinsichtlich der Authentizität und Integrität von Inhalten auf. Viele derzeitige AIGC-Erkennungsmethoden fungieren als Black-Box-Binärklassifikatoren, die nur begrenzte Interpretierbarkeit bieten, und kein Ansatz unterstützt die Erkennung sowohl von Bildern als auch von Videos in einem einheitlichen Framework. Diese doppelte Einschränkung beeinträchtigt die Transparenz der Modelle, verringert die Vertrauenswürdigkeit und behindert die praktische Implementierung. Um diese Herausforderungen zu bewältigen, stellen wir IVY-FAKE vor, einen neuartigen, einheitlichen und groß angelegten Datensatz, der speziell für die erklärbare multimodale AIGC-Erkennung entwickelt wurde. Im Gegensatz zu früheren Benchmarks, die unter fragmentierter Modalitätsabdeckung und spärlichen Annotationen leiden, enthält IVY-FAKE über 150.000 reich annotierte Trainingsbeispiele (Bilder und Videos) und 18.700 Evaluierungsbeispiele, die jeweils von detaillierten natürlichen Sprachbegründungen über einfache Binärlabels hinaus begleitet werden. Darauf aufbauend schlagen wir den Ivy Explainable Detector (IVY-XDETECTOR) vor, eine einheitliche AIGC-Erkennungs- und Erklärungsarchitektur, die gemeinsam erklärbare Erkennung für sowohl Bild- als auch Videoinhalte durchführt. Unser einheitliches Vision-Sprache-Modell erzielt state-of-the-art Leistungen über mehrere Bild- und Videoerkennungs-Benchmarks hinweg und unterstreicht die bedeutenden Fortschritte, die durch unseren Datensatz und unser Modellierungsframework ermöglicht werden. Unsere Daten sind öffentlich verfügbar unter https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.

English

The rapid advancement of Artificial Intelligence Generated Content (AIGC) in visual domains has resulted in highly realistic synthetic images and videos, driven by sophisticated generative frameworks such as diffusion-based architectures. While these breakthroughs open substantial opportunities, they simultaneously raise critical concerns about content authenticity and integrity. Many current AIGC detection methods operate as black-box binary classifiers, which offer limited interpretability, and no approach supports detecting both images and videos in a unified framework. This dual limitation compromises model transparency, reduces trustworthiness, and hinders practical deployment. To address these challenges, we introduce IVY-FAKE , a novel, unified, and large-scale dataset specifically designed for explainable multimodal AIGC detection. Unlike prior benchmarks, which suffer from fragmented modality coverage and sparse annotations, IVY-FAKE contains over 150,000 richly annotated training samples (images and videos) and 18,700 evaluation examples, each accompanied by detailed natural-language reasoning beyond simple binary labels. Building on this, we propose Ivy Explainable Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture that jointly performs explainable detection for both image and video content. Our unified vision-language model achieves state-of-the-art performance across multiple image and video detection benchmarks, highlighting the significant advancements enabled by our dataset and modeling framework. Our data is publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.

IVY-FAKE: Ein einheitliches erklärbares Framework und Benchmark für die Erkennung von Bild- und Video-AIGC

IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection

papers.abstract

Support