IVY-FAKE: Un Marco Unificado Explicable y un Punto de Referencia para la Detección de AIGC en Imágenes y Videos
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
June 1, 2025
Autores: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI
Resumen
El rápido avance del Contenido Generado por Inteligencia Artificial (AIGC) en dominios visuales ha dado lugar a imágenes y videos sintéticos altamente realistas, impulsados por marcos generativos sofisticados como las arquitecturas basadas en difusión. Si bien estos avances abren oportunidades sustanciales, también plantean preocupaciones críticas sobre la autenticidad e integridad del contenido. Muchos de los métodos actuales de detección de AIGC funcionan como clasificadores binarios de caja negra, que ofrecen una interpretabilidad limitada, y ningún enfoque permite detectar tanto imágenes como videos en un marco unificado. Esta doble limitación compromete la transparencia del modelo, reduce su confiabilidad y dificulta su implementación práctica. Para abordar estos desafíos, presentamos IVY-FAKE, un conjunto de datos novedoso, unificado y a gran escala diseñado específicamente para la detección explicable de AIGC multimodal. A diferencia de los puntos de referencia anteriores, que sufren de una cobertura de modalidad fragmentada y anotaciones escasas, IVY-FAKE contiene más de 150,000 muestras de entrenamiento ricamente anotadas (imágenes y videos) y 18,700 ejemplos de evaluación, cada uno acompañado de un razonamiento detallado en lenguaje natural más allá de simples etiquetas binarias. Sobre esta base, proponemos Ivy Explainable Detector (IVY-XDETECTOR), una arquitectura unificada de detección y explicación de AIGC que realiza conjuntamente la detección explicable tanto para contenido de imagen como de video. Nuestro modelo unificado de visión y lenguaje logra un rendimiento de vanguardia en múltiples puntos de referencia de detección de imágenes y videos, destacando los avances significativos habilitados por nuestro conjunto de datos y marco de modelado. Nuestros datos están disponibles públicamente en https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in
visual domains has resulted in highly realistic synthetic images and videos,
driven by sophisticated generative frameworks such as diffusion-based
architectures. While these breakthroughs open substantial opportunities, they
simultaneously raise critical concerns about content authenticity and
integrity. Many current AIGC detection methods operate as black-box binary
classifiers, which offer limited interpretability, and no approach supports
detecting both images and videos in a unified framework. This dual limitation
compromises model transparency, reduces trustworthiness, and hinders practical
deployment. To address these challenges, we introduce IVY-FAKE , a novel,
unified, and large-scale dataset specifically designed for explainable
multimodal AIGC detection. Unlike prior benchmarks, which suffer from
fragmented modality coverage and sparse annotations, IVY-FAKE contains over
150,000 richly annotated training samples (images and videos) and 18,700
evaluation examples, each accompanied by detailed natural-language reasoning
beyond simple binary labels. Building on this, we propose Ivy Explainable
Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture
that jointly performs explainable detection for both image and video content.
Our unified vision-language model achieves state-of-the-art performance across
multiple image and video detection benchmarks, highlighting the significant
advancements enabled by our dataset and modeling framework. Our data is
publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.