O Que é Importante na Detecção de Vídeos Gerados por IA como Sora?
What Matters in Detecting AI-Generated Videos like Sora?
June 27, 2024
Autores: Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi
cs.AI
Resumo
Avanços recentes na geração de vídeos baseada em difusão têm apresentado resultados notáveis, no entanto, a lacuna entre vídeos sintéticos e vídeos do mundo real permanece pouco explorada. Neste estudo, examinamos essa lacuna a partir de três perspectivas fundamentais: aparência, movimento e geometria, comparando vídeos do mundo real com aqueles gerados por um modelo de IA de ponta, Stable Video Diffusion. Para alcançar isso, treinamos três classificadores usando redes convolucionais 3D, cada um visando aspectos distintos: características do modelo de fundação de visão para aparência, fluxo óptico para movimento e profundidade monocular para geometria. Cada classificador apresenta forte desempenho na detecção de vídeos falsos, tanto qualitativa quanto quantitativamente. Isso indica que vídeos gerados por IA ainda são facilmente detectáveis, e uma lacuna significativa entre vídeos reais e falsos persiste. Além disso, utilizando o Grad-CAM, identificamos falhas sistemáticas de vídeos gerados por IA na aparência, movimento e geometria. Por fim, propomos um modelo de Conjunto de Especialistas que integra informações de aparência, fluxo óptico e profundidade para detecção de vídeos falsos, resultando em maior robustez e capacidade de generalização. Nosso modelo é capaz de detectar vídeos gerados por Sora com alta precisão, mesmo sem exposição a quaisquer vídeos de Sora durante o treinamento. Isso sugere que a lacuna entre vídeos reais e falsos pode ser generalizada entre vários modelos generativos de vídeo. Página do projeto: https://justin-crchang.github.io/3DCNNDetection.github.io/
English
Recent advancements in diffusion-based video generation have showcased
remarkable results, yet the gap between synthetic and real-world videos remains
under-explored. In this study, we examine this gap from three fundamental
perspectives: appearance, motion, and geometry, comparing real-world videos
with those generated by a state-of-the-art AI model, Stable Video Diffusion. To
achieve this, we train three classifiers using 3D convolutional networks, each
targeting distinct aspects: vision foundation model features for appearance,
optical flow for motion, and monocular depth for geometry. Each classifier
exhibits strong performance in fake video detection, both qualitatively and
quantitatively. This indicates that AI-generated videos are still easily
detectable, and a significant gap between real and fake videos persists.
Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of
AI-generated videos in appearance, motion, and geometry. Finally, we propose an
Ensemble-of-Experts model that integrates appearance, optical flow, and depth
information for fake video detection, resulting in enhanced robustness and
generalization ability. Our model is capable of detecting videos generated by
Sora with high accuracy, even without exposure to any Sora videos during
training. This suggests that the gap between real and fake videos can be
generalized across various video generative models. Project page:
https://justin-crchang.github.io/3DCNNDetection.github.io/