ChatPaper.aiChatPaper

IVY-FAKE: Un Framework e Benchmark Unificato e Spiegabile per il Rilevamento di AIGC in Immagini e Video

IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection

June 1, 2025
Autori: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI

Abstract

Il rapido progresso del Contenuto Generato da Intelligenza Artificiale (AIGC) nei domini visivi ha portato alla creazione di immagini e video sintetici altamente realistici, guidati da sofisticati framework generativi come le architetture basate su diffusione. Sebbene queste innovazioni aprano notevoli opportunità, sollevano contemporaneamente preoccupazioni critiche riguardo all'autenticità e all'integrità dei contenuti. Molti degli attuali metodi di rilevamento AIGC operano come classificatori binari a scatola chiusa, offrendo una limitata interpretabilità, e nessun approccio supporta il rilevamento sia di immagini che di video in un framework unificato. Questa doppia limitazione compromette la trasparenza del modello, riduce l'affidabilità e ostacola l'implementazione pratica. Per affrontare queste sfide, introduciamo IVY-FAKE, un nuovo dataset unificato e su larga scala progettato specificamente per il rilevamento AIGC multimodale e spiegabile. A differenza dei benchmark precedenti, che soffrono di una copertura modale frammentata e annotazioni scarse, IVY-FAKE contiene oltre 150.000 campioni di addestramento riccamente annotati (immagini e video) e 18.700 esempi di valutazione, ciascuno accompagnato da un ragionamento dettagliato in linguaggio naturale che va oltre le semplici etichette binarie. Sulla base di ciò, proponiamo Ivy Explainable Detector (IVY-XDETECTOR), un'architettura unificata per il rilevamento e la spiegazione AIGC che esegue congiuntamente il rilevamento spiegabile sia per i contenuti immagine che video. Il nostro modello unificato visione-linguaggio raggiunge prestazioni all'avanguardia su più benchmark di rilevamento di immagini e video, evidenziando i significativi progressi resi possibili dal nostro dataset e framework di modellazione. I nostri dati sono pubblicamente disponibili all'indirizzo https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in visual domains has resulted in highly realistic synthetic images and videos, driven by sophisticated generative frameworks such as diffusion-based architectures. While these breakthroughs open substantial opportunities, they simultaneously raise critical concerns about content authenticity and integrity. Many current AIGC detection methods operate as black-box binary classifiers, which offer limited interpretability, and no approach supports detecting both images and videos in a unified framework. This dual limitation compromises model transparency, reduces trustworthiness, and hinders practical deployment. To address these challenges, we introduce IVY-FAKE , a novel, unified, and large-scale dataset specifically designed for explainable multimodal AIGC detection. Unlike prior benchmarks, which suffer from fragmented modality coverage and sparse annotations, IVY-FAKE contains over 150,000 richly annotated training samples (images and videos) and 18,700 evaluation examples, each accompanied by detailed natural-language reasoning beyond simple binary labels. Building on this, we propose Ivy Explainable Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture that jointly performs explainable detection for both image and video content. Our unified vision-language model achieves state-of-the-art performance across multiple image and video detection benchmarks, highlighting the significant advancements enabled by our dataset and modeling framework. Our data is publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
PDF134June 3, 2025