Was ist bei der Erkennung von KI-generierten Videos wie Sora wichtig?
What Matters in Detecting AI-Generated Videos like Sora?
June 27, 2024
Autoren: Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi
cs.AI
Zusammenfassung
Die jüngsten Fortschritte in der auf Diffusion basierenden Videogenerierung haben bemerkenswerte Ergebnisse gezeigt, jedoch bleibt die Kluft zwischen synthetischen und realen Videos weitgehend unerforscht. In dieser Studie untersuchen wir diese Kluft aus drei grundlegenden Perspektiven: Erscheinungsbild, Bewegung und Geometrie, indem wir reale Videos mit denen vergleichen, die von einem hochmodernen KI-Modell, Stable Video Diffusion, generiert wurden. Um dies zu erreichen, trainieren wir drei Klassifizierer unter Verwendung von 3D-Faltungsnetzwerken, die jeweils unterschiedliche Aspekte anvisieren: Merkmale des Vision-Grundlagenmodells für das Erscheinungsbild, optischer Fluss für die Bewegung und monokulares Tiefenwissen für die Geometrie. Jeder Klassifizierer zeigt eine starke Leistung bei der Erkennung gefälschter Videos, sowohl qualitativ als auch quantitativ. Dies deutet darauf hin, dass KI-generierte Videos immer noch leicht erkennbar sind und eine signifikante Kluft zwischen realen und gefälschten Videos bestehen bleibt. Darüber hinaus identifizieren wir mithilfe von Grad-CAM systematische Fehler von KI-generierten Videos im Erscheinungsbild, der Bewegung und der Geometrie. Abschließend schlagen wir ein Ensemble-von-Experten-Modell vor, das Erscheinungsbild, optischen Fluss und Tiefeninformationen zur Erkennung gefälschter Videos integriert und dadurch eine verbesserte Robustheit und Generalisierungsfähigkeit bietet. Unser Modell ist in der Lage, Videos, die von Sora generiert wurden, mit hoher Genauigkeit zu erkennen, selbst ohne Exposition gegenüber irgendwelchen Sora-Videos während des Trainings. Dies legt nahe, dass die Kluft zwischen realen und gefälschten Videos auf verschiedene Video-Generierungsmodelle verallgemeinert werden kann. Projektseite: https://justin-crchang.github.io/3DCNNDetection.github.io/
English
Recent advancements in diffusion-based video generation have showcased
remarkable results, yet the gap between synthetic and real-world videos remains
under-explored. In this study, we examine this gap from three fundamental
perspectives: appearance, motion, and geometry, comparing real-world videos
with those generated by a state-of-the-art AI model, Stable Video Diffusion. To
achieve this, we train three classifiers using 3D convolutional networks, each
targeting distinct aspects: vision foundation model features for appearance,
optical flow for motion, and monocular depth for geometry. Each classifier
exhibits strong performance in fake video detection, both qualitatively and
quantitatively. This indicates that AI-generated videos are still easily
detectable, and a significant gap between real and fake videos persists.
Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of
AI-generated videos in appearance, motion, and geometry. Finally, we propose an
Ensemble-of-Experts model that integrates appearance, optical flow, and depth
information for fake video detection, resulting in enhanced robustness and
generalization ability. Our model is capable of detecting videos generated by
Sora with high accuracy, even without exposure to any Sora videos during
training. This suggests that the gap between real and fake videos can be
generalized across various video generative models. Project page:
https://justin-crchang.github.io/3DCNNDetection.github.io/Summary
AI-Generated Summary