¿Qué es importante en la detección de videos generados por IA como Sora?
What Matters in Detecting AI-Generated Videos like Sora?
June 27, 2024
Autores: Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi
cs.AI
Resumen
Los recientes avances en la generación de videos basada en difusión han mostrado resultados notables, sin embargo, la brecha entre videos sintéticos y del mundo real sigue siendo poco explorada. En este estudio, examinamos esta brecha desde tres perspectivas fundamentales: apariencia, movimiento y geometría, comparando videos del mundo real con aquellos generados por un modelo de IA de última generación, Difusión de Video Estable. Para lograr esto, entrenamos tres clasificadores utilizando redes convolucionales 3D, cada uno dirigido a aspectos distintos: características del modelo de visión para apariencia, flujo óptico para movimiento y profundidad monocular para geometría. Cada clasificador muestra un rendimiento sólido en la detección de videos falsos, tanto cualitativa como cuantitativamente. Esto indica que los videos generados por IA siguen siendo fácilmente detectables, y una brecha significativa entre videos reales y falsos persiste. Además, utilizando Grad-CAM, señalamos fallas sistemáticas de los videos generados por IA en apariencia, movimiento y geometría. Finalmente, proponemos un modelo de Conjunto de Expertos que integra información de apariencia, flujo óptico y profundidad para la detección de videos falsos, lo que resulta en una mayor robustez y capacidad de generalización. Nuestro modelo es capaz de detectar videos generados por Sora con alta precisión, incluso sin exposición a ningún video de Sora durante el entrenamiento. Esto sugiere que la brecha entre videos reales y falsos puede generalizarse a través de varios modelos generativos de video. Página del proyecto: https://justin-crchang.github.io/3DCNNDetection.github.io/
English
Recent advancements in diffusion-based video generation have showcased
remarkable results, yet the gap between synthetic and real-world videos remains
under-explored. In this study, we examine this gap from three fundamental
perspectives: appearance, motion, and geometry, comparing real-world videos
with those generated by a state-of-the-art AI model, Stable Video Diffusion. To
achieve this, we train three classifiers using 3D convolutional networks, each
targeting distinct aspects: vision foundation model features for appearance,
optical flow for motion, and monocular depth for geometry. Each classifier
exhibits strong performance in fake video detection, both qualitatively and
quantitatively. This indicates that AI-generated videos are still easily
detectable, and a significant gap between real and fake videos persists.
Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of
AI-generated videos in appearance, motion, and geometry. Finally, we propose an
Ensemble-of-Experts model that integrates appearance, optical flow, and depth
information for fake video detection, resulting in enhanced robustness and
generalization ability. Our model is capable of detecting videos generated by
Sora with high accuracy, even without exposure to any Sora videos during
training. This suggests that the gap between real and fake videos can be
generalized across various video generative models. Project page:
https://justin-crchang.github.io/3DCNNDetection.github.io/Summary
AI-Generated Summary