IVY-FAKE: 이미지 및 비디오 AIGC 탐지를 위한 통합 설명 가능 프레임워크 및 벤치마크
IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
June 1, 2025
저자: Wayne Zhang, Changjiang Jiang, Zhonghao Zhang, Chenyang Si, Fengchang Yu, Wei Peng
cs.AI
초록
시각적 영역에서의 인공지능 생성 콘텐츠(AIGC)의 급속한 발전은 확산 기반 아키텍처와 같은 정교한 생성 프레임워크를 통해 매우 사실적인 합성 이미지와 비디오를 만들어냈습니다. 이러한 혁신은 상당한 기회를 열어주는 동시에 콘텐츠의 진위성과 무결성에 대한 중요한 우려를 제기합니다. 현재 많은 AIGC 탐지 방법은 블랙박스 이진 분류기로 작동하며, 이는 제한된 해석 가능성을 제공하고, 이미지와 비디오를 통합된 프레임워크에서 탐지하는 접근법을 지원하지 않습니다. 이러한 이중 한계는 모델의 투명성을 저해하고 신뢰성을 감소시키며 실질적인 배포를 방해합니다. 이러한 문제를 해결하기 위해, 우리는 설명 가능한 다중 모달 AIGC 탐지를 위해 특별히 설계된 새로운 통합 대규모 데이터셋인 IVY-FAKE를 소개합니다. 이전 벤치마크들이 단편적인 모달리티 커버리지와 희소한 주석으로 고통받았던 것과 달리, IVY-FAKE는 150,000개 이상의 풍부한 주석이 달린 훈련 샘플(이미지 및 비디오)과 18,700개의 평가 예제를 포함하며, 각각 단순한 이진 레이블을 넘어 상세한 자연어 추론을 제공합니다. 이를 바탕으로, 우리는 이미지와 비디오 콘텐츠 모두에 대해 설명 가능한 탐지를 수행하는 통합 AIGC 탐지 및 설명 가능 아키텍처인 Ivy Explainable Detector(IVY-XDETECTOR)를 제안합니다. 우리의 통합 시각-언어 모델은 여러 이미지 및 비디오 탐지 벤치마크에서 최첨단 성능을 달성하며, 우리의 데이터셋과 모델링 프레임워크가 가능하게 한 중요한 발전을 강조합니다. 우리의 데이터는 https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake에서 공개적으로 이용 가능합니다.
English
The rapid advancement of Artificial Intelligence Generated Content (AIGC) in
visual domains has resulted in highly realistic synthetic images and videos,
driven by sophisticated generative frameworks such as diffusion-based
architectures. While these breakthroughs open substantial opportunities, they
simultaneously raise critical concerns about content authenticity and
integrity. Many current AIGC detection methods operate as black-box binary
classifiers, which offer limited interpretability, and no approach supports
detecting both images and videos in a unified framework. This dual limitation
compromises model transparency, reduces trustworthiness, and hinders practical
deployment. To address these challenges, we introduce IVY-FAKE , a novel,
unified, and large-scale dataset specifically designed for explainable
multimodal AIGC detection. Unlike prior benchmarks, which suffer from
fragmented modality coverage and sparse annotations, IVY-FAKE contains over
150,000 richly annotated training samples (images and videos) and 18,700
evaluation examples, each accompanied by detailed natural-language reasoning
beyond simple binary labels. Building on this, we propose Ivy Explainable
Detector (IVY-XDETECTOR), a unified AIGC detection and explainable architecture
that jointly performs explainable detection for both image and video content.
Our unified vision-language model achieves state-of-the-art performance across
multiple image and video detection benchmarks, highlighting the significant
advancements enabled by our dataset and modeling framework. Our data is
publicly available at https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.