DeMamba: 백만 규모 GenVideo 벤치마크에서의 AI 생성 비디오 탐지
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark
May 30, 2024
저자: Haoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li
cs.AI
초록
최근 비디오 생성 기술이 급속도로 발전하고 있습니다. 소셜 미디어 플랫폼에서 비디오 콘텐츠의 인기가 높아짐에 따라, 이러한 모델들은 가짜 정보 확산에 대한 우려를 더욱 증폭시키고 있습니다. 따라서, AI 생성 가짜 비디오를 식별하고 가짜 정보로 인한 잠재적 피해를 완화할 수 있는 탐지기에 대한 수요가 점점 증가하고 있습니다. 그러나 가장 최신의 비디오 생성기로부터 대규모 데이터셋이 부족하다는 점이 이러한 탐지기 개발에 걸림돌로 작용하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 첫 번째 AI 생성 비디오 탐지 데이터셋인 GenVideo를 소개합니다. 이 데이터셋은 다음과 같은 특징을 가지고 있습니다: (1) 100만 개 이상의 AI 생성 비디오와 실제 비디오를 포함한 대규모 비디오 데이터, (2) 다양한 생성 콘텐츠와 방법론을 포괄하여 광범위한 비디오 카테고리와 생성 기술을 다룹니다. 우리는 이 데이터셋에 대한 광범위한 연구를 수행하고, 탐지기의 성능을 평가하기 위해 현실 세계와 유사한 시나리오에 맞춘 두 가지 평가 방법을 제안했습니다: 크로스-생성기 비디오 분류 작업은 훈련된 탐지기가 다양한 생성기에 대해 일반화 능력을 평가하고, 저하된 비디오 분류 작업은 탐지기가 전파 과정에서 품질이 저하된 비디오를 처리하는 견고성을 평가합니다. 또한, 우리는 시간적 및 공간적 차원에서의 불일치를 분석하여 AI 생성 비디오를 식별함으로써 탐지기의 성능을 향상시키기 위해 플러그 앤 플레이 모듈인 Detail Mamba(DeMamba)를 도입했습니다. 우리의 광범위한 실험은 DeMamba가 GenVideo 데이터셋에서 기존 탐지기들에 비해 우수한 일반화 능력과 견고성을 보여줌을 입증합니다. 우리는 GenVideo 데이터셋과 DeMamba 모듈이 AI 생성 비디오 탐지 분야를 크게 발전시킬 것이라고 믿습니다. 우리의 코드와 데이터셋은 https://github.com/chenhaoxing/DeMamba에서 이용 가능할 예정입니다.
English
Recently, video generation techniques have advanced rapidly. Given the
popularity of video content on social media platforms, these models intensify
concerns about the spread of fake information. Therefore, there is a growing
demand for detectors capable of distinguishing between fake AI-generated videos
and mitigating the potential harm caused by fake information. However, the lack
of large-scale datasets from the most advanced video generators poses a barrier
to the development of such detectors. To address this gap, we introduce the
first AI-generated video detection dataset, GenVideo. It features the following
characteristics: (1) a large volume of videos, including over one million
AI-generated and real videos collected; (2) a rich diversity of generated
content and methodologies, covering a broad spectrum of video categories and
generation techniques. We conducted extensive studies of the dataset and
proposed two evaluation methods tailored for real-world-like scenarios to
assess the detectors' performance: the cross-generator video classification
task assesses the generalizability of trained detectors on generators; the
degraded video classification task evaluates the robustness of detectors to
handle videos that have degraded in quality during dissemination. Moreover, we
introduced a plug-and-play module, named Detail Mamba (DeMamba), designed to
enhance the detectors by identifying AI-generated videos through the analysis
of inconsistencies in temporal and spatial dimensions. Our extensive
experiments demonstrate DeMamba's superior generalizability and robustness on
GenVideo compared to existing detectors. We believe that the GenVideo dataset
and the DeMamba module will significantly advance the field of AI-generated
video detection. Our code and dataset will be aviliable at
https://github.com/chenhaoxing/DeMamba.Summary
AI-Generated Summary