Cosa Conta nel Rilevare Video Generati dall'IA come Sora?
What Matters in Detecting AI-Generated Videos like Sora?
June 27, 2024
Autori: Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi
cs.AI
Abstract
I recenti progressi nella generazione di video basata su diffusione hanno mostrato risultati notevoli, tuttavia il divario tra video sintetici e video del mondo reale rimane poco esplorato. In questo studio, esaminiamo questo divario da tre prospettive fondamentali: aspetto, movimento e geometria, confrontando video del mondo reale con quelli generati da un modello AI all'avanguardia, Stable Video Diffusion. Per raggiungere questo obiettivo, addestriamo tre classificatori utilizzando reti convoluzionali 3D, ciascuno mirato ad aspetti distinti: caratteristiche di un modello di base visivo per l'aspetto, flusso ottico per il movimento e profondità monoculare per la geometria. Ogni classificatore mostra prestazioni solide nel rilevamento di video falsi, sia qualitativamente che quantitativamente. Ciò indica che i video generati dall'AI sono ancora facilmente rilevabili e che persiste un divario significativo tra video reali e falsi. Inoltre, utilizzando il Grad-CAM, identifiamo errori sistematici nei video generati dall'AI relativi ad aspetto, movimento e geometria. Infine, proponiamo un modello Ensemble-of-Experts che integra informazioni sull'aspetto, sul flusso ottico e sulla profondità per il rilevamento di video falsi, ottenendo una maggiore robustezza e capacità di generalizzazione. Il nostro modello è in grado di rilevare con alta precisione video generati da Sora, anche senza essere stato esposto a nessun video di Sora durante l'addestramento. Ciò suggerisce che il divario tra video reali e falsi può essere generalizzato attraverso vari modelli generativi di video. Pagina del progetto: https://justin-crchang.github.io/3DCNNDetection.github.io/
English
Recent advancements in diffusion-based video generation have showcased
remarkable results, yet the gap between synthetic and real-world videos remains
under-explored. In this study, we examine this gap from three fundamental
perspectives: appearance, motion, and geometry, comparing real-world videos
with those generated by a state-of-the-art AI model, Stable Video Diffusion. To
achieve this, we train three classifiers using 3D convolutional networks, each
targeting distinct aspects: vision foundation model features for appearance,
optical flow for motion, and monocular depth for geometry. Each classifier
exhibits strong performance in fake video detection, both qualitatively and
quantitatively. This indicates that AI-generated videos are still easily
detectable, and a significant gap between real and fake videos persists.
Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of
AI-generated videos in appearance, motion, and geometry. Finally, we propose an
Ensemble-of-Experts model that integrates appearance, optical flow, and depth
information for fake video detection, resulting in enhanced robustness and
generalization ability. Our model is capable of detecting videos generated by
Sora with high accuracy, even without exposure to any Sora videos during
training. This suggests that the gap between real and fake videos can be
generalized across various video generative models. Project page:
https://justin-crchang.github.io/3DCNNDetection.github.io/