Qu'est-ce qui compte dans la détection des vidéos générées par l'IA comme Sora ?
What Matters in Detecting AI-Generated Videos like Sora?
June 27, 2024
Auteurs: Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi
cs.AI
Résumé
Les récents progrès dans la génération de vidéos basée sur la diffusion ont montré des résultats remarquables, mais l'écart entre les vidéos synthétiques et les vidéos du monde réel reste peu exploré. Dans cette étude, nous examinons cet écart sous trois perspectives fondamentales : l'apparence, le mouvement et la géométrie, en comparant les vidéos du monde réel avec celles générées par un modèle d'IA de pointe, Stable Video Diffusion. Pour ce faire, nous entraînons trois classificateurs utilisant des réseaux convolutifs 3D, chacun ciblant des aspects distincts : les caractéristiques d'un modèle de base visuel pour l'apparence, le flux optique pour le mouvement, et la profondeur monoculaire pour la géométrie. Chaque classificateur montre une performance élevée dans la détection de vidéos synthétiques, à la fois qualitativement et quantitativement. Cela indique que les vidéos générées par l'IA sont encore facilement détectables, et qu'un écart significatif entre les vidéos réelles et synthétiques persiste. De plus, en utilisant Grad-CAM, nous identifions les échecs systématiques des vidéos générées par l'IA en termes d'apparence, de mouvement et de géométrie. Enfin, nous proposons un modèle Ensemble-of-Experts qui intègre les informations d'apparence, de flux optique et de profondeur pour la détection de vidéos synthétiques, améliorant ainsi la robustesse et la capacité de généralisation. Notre modèle est capable de détecter avec une grande précision les vidéos générées par Sora, même sans avoir été exposé à aucune vidéo de Sora pendant l'entraînement. Cela suggère que l'écart entre les vidéos réelles et synthétiques peut être généralisé à travers divers modèles de génération de vidéos. Page du projet : https://justin-crchang.github.io/3DCNNDetection.github.io/
English
Recent advancements in diffusion-based video generation have showcased
remarkable results, yet the gap between synthetic and real-world videos remains
under-explored. In this study, we examine this gap from three fundamental
perspectives: appearance, motion, and geometry, comparing real-world videos
with those generated by a state-of-the-art AI model, Stable Video Diffusion. To
achieve this, we train three classifiers using 3D convolutional networks, each
targeting distinct aspects: vision foundation model features for appearance,
optical flow for motion, and monocular depth for geometry. Each classifier
exhibits strong performance in fake video detection, both qualitatively and
quantitatively. This indicates that AI-generated videos are still easily
detectable, and a significant gap between real and fake videos persists.
Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of
AI-generated videos in appearance, motion, and geometry. Finally, we propose an
Ensemble-of-Experts model that integrates appearance, optical flow, and depth
information for fake video detection, resulting in enhanced robustness and
generalization ability. Our model is capable of detecting videos generated by
Sora with high accuracy, even without exposure to any Sora videos during
training. This suggests that the gap between real and fake videos can be
generalized across various video generative models. Project page:
https://justin-crchang.github.io/3DCNNDetection.github.io/Summary
AI-Generated Summary