IVY-FAKE: Унифицированная объяснимая структура и эталон для обнаружения изображений и видео, созданных искусственным интеллектом
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
June 1, 2025
Авторы: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI
Аннотация
Быстрое развитие технологий генерации контента с использованием искусственного интеллекта (AIGC) в визуальных областях привело к созданию высокореалистичных синтетических изображений и видео, что стало возможным благодаря сложным генеративным архитектурам, таким как диффузионные модели. Хотя эти прорывы открывают значительные возможности, они одновременно вызывают серьезные опасения относительно подлинности и целостности контента. Многие современные методы обнаружения AIGC работают как черные ящики в виде бинарных классификаторов, что ограничивает их интерпретируемость, и ни один из подходов не поддерживает обнаружение как изображений, так и видео в единой системе. Это двойное ограничение снижает прозрачность моделей, уменьшает их надежность и затрудняет практическое применение. Для решения этих проблем мы представляем IVY-FAKE — новый, унифицированный и масштабный набор данных, специально разработанный для объяснимого мультимодального обнаружения AIGC. В отличие от предыдущих эталонных наборов, которые страдают от фрагментированного охвата модальностей и редких аннотаций, IVY-FAKE содержит более 150 000 богато аннотированных обучающих примеров (изображений и видео) и 18 700 тестовых примеров, каждый из которых сопровождается подробным естественно-языковым объяснением, выходящим за рамки простых бинарных меток. На основе этого мы предлагаем Ivy Explainable Detector (IVY-XDETECTOR) — унифицированную архитектуру для обнаружения и объяснения AIGC, которая одновременно выполняет объяснимое обнаружение как для изображений, так и для видео. Наша унифицированная модель, объединяющая визуальные и языковые данные, демонстрирует наилучшие результаты на нескольких эталонных тестах для обнаружения изображений и видео, подчеркивая значительные достижения, обеспеченные нашим набором данных и архитектурой модели. Наши данные доступны публично по адресу: https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in
visual domains has resulted in highly realistic synthetic images and videos,
driven by sophisticated generative frameworks such as diffusion-based
architectures. While these breakthroughs open substantial opportunities, they
simultaneously raise critical concerns about content authenticity and
integrity. Many current AIGC detection methods operate as black-box binary
classifiers, which offer limited interpretability, and no approach supports
detecting both images and videos in a unified framework. This dual limitation
compromises model transparency, reduces trustworthiness, and hinders practical
deployment. To address these challenges, we introduce IVY-FAKE , a novel,
unified, and large-scale dataset specifically designed for explainable
multimodal AIGC detection. Unlike prior benchmarks, which suffer from
fragmented modality coverage and sparse annotations, IVY-FAKE contains over
150,000 richly annotated training samples (images and videos) and 18,700
evaluation examples, each accompanied by detailed natural-language reasoning
beyond simple binary labels. Building on this, we propose Ivy Explainable
Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture
that jointly performs explainable detection for both image and video content.
Our unified vision-language model achieves state-of-the-art performance across
multiple image and video detection benchmarks, highlighting the significant
advancements enabled by our dataset and modeling framework. Our data is
publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.