Wat is belangrijk bij het detecteren van AI-gegenereerde video's zoals Sora?
What Matters in Detecting AI-Generated Videos like Sora?
June 27, 2024
Auteurs: Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi
cs.AI
Samenvatting
Recente vooruitgang in diffusiegebaseerde videogeneratie heeft opmerkelijke resultaten laten zien, maar de kloof tussen synthetische en real-world video's blijft onderbelicht. In deze studie onderzoeken we deze kloof vanuit drie fundamentele perspectieven: uiterlijk, beweging en geometrie, waarbij we real-world video's vergelijken met video's die gegenereerd zijn door een state-of-the-art AI-model, Stable Video Diffusion. Om dit te bereiken, trainen we drie classificatoren met behulp van 3D-convolutionele netwerken, elk gericht op verschillende aspecten: vision foundation model features voor uiterlijk, optische stroom voor beweging en monoculaire diepte voor geometrie. Elke classificator vertoont sterke prestaties in het detecteren van nepvideo's, zowel kwalitatief als kwantitatief. Dit geeft aan dat AI-gegenereerde video's nog steeds gemakkelijk te detecteren zijn en dat er een aanzienlijke kloof blijft bestaan tussen echte en nepvideo's. Bovendien gebruiken we Grad-CAM om systematische fouten in AI-gegenereerde video's op het gebied van uiterlijk, beweging en geometrie te identificeren. Ten slotte stellen we een Ensemble-of-Experts model voor dat informatie over uiterlijk, optische stroom en diepte integreert voor de detectie van nepvideo's, wat resulteert in verbeterde robuustheid en generalisatievermogen. Ons model is in staat om video's die gegenereerd zijn door Sora met hoge nauwkeurigheid te detecteren, zelfs zonder blootstelling aan enige Sora-video's tijdens de training. Dit suggereert dat de kloof tussen echte en nepvideo's gegeneraliseerd kan worden over verschillende videogeneratieve modellen. Projectpagina: https://justin-crchang.github.io/3DCNNDetection.github.io/
English
Recent advancements in diffusion-based video generation have showcased
remarkable results, yet the gap between synthetic and real-world videos remains
under-explored. In this study, we examine this gap from three fundamental
perspectives: appearance, motion, and geometry, comparing real-world videos
with those generated by a state-of-the-art AI model, Stable Video Diffusion. To
achieve this, we train three classifiers using 3D convolutional networks, each
targeting distinct aspects: vision foundation model features for appearance,
optical flow for motion, and monocular depth for geometry. Each classifier
exhibits strong performance in fake video detection, both qualitatively and
quantitatively. This indicates that AI-generated videos are still easily
detectable, and a significant gap between real and fake videos persists.
Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of
AI-generated videos in appearance, motion, and geometry. Finally, we propose an
Ensemble-of-Experts model that integrates appearance, optical flow, and depth
information for fake video detection, resulting in enhanced robustness and
generalization ability. Our model is capable of detecting videos generated by
Sora with high accuracy, even without exposure to any Sora videos during
training. This suggests that the gap between real and fake videos can be
generalized across various video generative models. Project page:
https://justin-crchang.github.io/3DCNNDetection.github.io/