IVY-FAKE: Um Framework Explicável Unificado e Benchmark para Detecção de AIGC em Imagens e Vídeos
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
June 1, 2025
Autores: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI
Resumo
O rápido avanço do Conteúdo Gerado por Inteligência Artificial (AIGC) em domínios visuais resultou em imagens e vídeos sintéticos altamente realistas, impulsionados por estruturas generativas sofisticadas, como arquiteturas baseadas em difusão. Embora esses avanços abram oportunidades substanciais, eles simultaneamente levantam preocupações críticas sobre a autenticidade e integridade do conteúdo. Muitos dos métodos atuais de detecção de AIGC operam como classificadores binários de caixa preta, que oferecem interpretabilidade limitada, e nenhuma abordagem suporta a detecção de imagens e vídeos em um framework unificado. Essa dupla limitação compromete a transparência do modelo, reduz a confiabilidade e dificulta a implantação prática. Para enfrentar esses desafios, apresentamos o IVY-FAKE, um novo conjunto de dados unificado e em grande escala, projetado especificamente para a detecção explicável de AIGC multimodal. Diferente de benchmarks anteriores, que sofrem com cobertura de modalidade fragmentada e anotações esparsas, o IVY-FAKE contém mais de 150.000 amostras de treinamento ricamente anotadas (imagens e vídeos) e 18.700 exemplos de avaliação, cada um acompanhado por raciocínio detalhado em linguagem natural além de simples rótulos binários. Com base nisso, propomos o Ivy Explainable Detector (IVY-XDETECTOR), uma arquitetura unificada de detecção e explicação de AIGC que realiza conjuntamente a detecção explicável de conteúdo de imagem e vídeo. Nosso modelo unificado de visão e linguagem alcança desempenho de ponta em vários benchmarks de detecção de imagens e vídeos, destacando os avanços significativos possibilitados por nosso conjunto de dados e framework de modelagem. Nossos dados estão publicamente disponíveis em https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in
visual domains has resulted in highly realistic synthetic images and videos,
driven by sophisticated generative frameworks such as diffusion-based
architectures. While these breakthroughs open substantial opportunities, they
simultaneously raise critical concerns about content authenticity and
integrity. Many current AIGC detection methods operate as black-box binary
classifiers, which offer limited interpretability, and no approach supports
detecting both images and videos in a unified framework. This dual limitation
compromises model transparency, reduces trustworthiness, and hinders practical
deployment. To address these challenges, we introduce IVY-FAKE , a novel,
unified, and large-scale dataset specifically designed for explainable
multimodal AIGC detection. Unlike prior benchmarks, which suffer from
fragmented modality coverage and sparse annotations, IVY-FAKE contains over
150,000 richly annotated training samples (images and videos) and 18,700
evaluation examples, each accompanied by detailed natural-language reasoning
beyond simple binary labels. Building on this, we propose Ivy Explainable
Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture
that jointly performs explainable detection for both image and video content.
Our unified vision-language model achieves state-of-the-art performance across
multiple image and video detection benchmarks, highlighting the significant
advancements enabled by our dataset and modeling framework. Our data is
publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.