DeMamba : Détection de vidéos générées par IA sur le benchmark GenVideo à l'échelle du million
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark
May 30, 2024
Auteurs: Haoxing Chen, Yan Hong, Zizheng Huang, Zhuoer Xu, Zhangxuan Gu, Yaohui Li, Jun Lan, Huijia Zhu, Jianfu Zhang, Weiqiang Wang, Huaxiong Li
cs.AI
Résumé
Récemment, les techniques de génération vidéo ont progressé rapidement. Compte tenu de la popularité des contenus vidéo sur les plateformes de médias sociaux, ces modèles exacerbent les inquiétudes concernant la propagation de fausses informations. Par conséquent, il existe une demande croissante pour des détecteurs capables de distinguer les vidéos générées par IA des vidéos réelles, afin d'atténuer les dommages potentiels causés par les fausses informations. Cependant, le manque de jeux de données à grande échelle provenant des générateurs vidéo les plus avancés constitue un obstacle au développement de tels détecteurs. Pour combler cette lacune, nous introduisons le premier jeu de données de détection de vidéos générées par IA, GenVideo. Il présente les caractéristiques suivantes : (1) un volume important de vidéos, incluant plus d'un million de vidéos générées par IA et de vidéos réelles collectées ; (2) une grande diversité de contenus générés et de méthodologies, couvrant un large éventail de catégories vidéo et de techniques de génération. Nous avons mené des études approfondies sur ce jeu de données et proposé deux méthodes d'évaluation adaptées à des scénarios proches de la réalité pour évaluer les performances des détecteurs : la tâche de classification vidéo inter-générateurs évalue la généralisabilité des détecteurs entraînés sur différents générateurs ; la tâche de classification vidéo dégradée évalue la robustesse des détecteurs face à des vidéos dont la qualité s'est détériorée lors de leur diffusion. De plus, nous avons introduit un module plug-and-play, nommé Detail Mamba (DeMamba), conçu pour améliorer les détecteurs en identifiant les vidéos générées par IA grâce à l'analyse des incohérences dans les dimensions temporelles et spatiales. Nos expériences approfondies démontrent la supériorité de DeMamba en termes de généralisabilité et de robustesse sur GenVideo par rapport aux détecteurs existants. Nous croyons que le jeu de données GenVideo et le module DeMamba feront progresser de manière significative le domaine de la détection de vidéos générées par IA. Notre code et notre jeu de données seront disponibles à l'adresse suivante : https://github.com/chenhaoxing/DeMamba.
English
Recently, video generation techniques have advanced rapidly. Given the
popularity of video content on social media platforms, these models intensify
concerns about the spread of fake information. Therefore, there is a growing
demand for detectors capable of distinguishing between fake AI-generated videos
and mitigating the potential harm caused by fake information. However, the lack
of large-scale datasets from the most advanced video generators poses a barrier
to the development of such detectors. To address this gap, we introduce the
first AI-generated video detection dataset, GenVideo. It features the following
characteristics: (1) a large volume of videos, including over one million
AI-generated and real videos collected; (2) a rich diversity of generated
content and methodologies, covering a broad spectrum of video categories and
generation techniques. We conducted extensive studies of the dataset and
proposed two evaluation methods tailored for real-world-like scenarios to
assess the detectors' performance: the cross-generator video classification
task assesses the generalizability of trained detectors on generators; the
degraded video classification task evaluates the robustness of detectors to
handle videos that have degraded in quality during dissemination. Moreover, we
introduced a plug-and-play module, named Detail Mamba (DeMamba), designed to
enhance the detectors by identifying AI-generated videos through the analysis
of inconsistencies in temporal and spatial dimensions. Our extensive
experiments demonstrate DeMamba's superior generalizability and robustness on
GenVideo compared to existing detectors. We believe that the GenVideo dataset
and the DeMamba module will significantly advance the field of AI-generated
video detection. Our code and dataset will be aviliable at
https://github.com/chenhaoxing/DeMamba.Summary
AI-Generated Summary