ChatPaper.aiChatPaper

Sora와 같은 AI 생성 비디오 탐지에서 중요한 것은 무엇인가?

What Matters in Detecting AI-Generated Videos like Sora?

June 27, 2024
저자: Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi
cs.AI

초록

디퓨전 기반 비디오 생성의 최근 발전은 놀라운 결과를 보여주었지만, 합성 비디오와 실제 비디오 간의 차이는 여전히 충분히 탐구되지 않았습니다. 본 연구에서는 외관, 움직임, 기하학이라는 세 가지 기본 관점에서 이 차이를 조사하며, 실제 비디오와 최신 AI 모델인 Stable Video Diffusion으로 생성된 비디오를 비교합니다. 이를 위해 3D 컨볼루션 네트워크를 사용하여 세 가지 분류기를 학습합니다: 외관을 위한 비전 기반 모델 특징, 움직임을 위한 광학 흐름, 기하학을 위한 단안 깊이 정보를 각각 대상으로 합니다. 각 분류기는 가짜 비디오 탐지에서 질적 및 양적으로 강력한 성능을 보여줍니다. 이는 AI 생성 비디오가 여전히 쉽게 탐지될 수 있으며, 실제와 가짜 비디오 간의 상당한 차이가 지속됨을 나타냅니다. 또한 Grad-CAM을 활용하여 AI 생성 비디오의 외관, 움직임, 기하학에서의 체계적인 실패 지점을 특정합니다. 마지막으로, 외관, 광학 흐름, 깊이 정보를 통합한 Ensemble-of-Experts 모델을 제안하여 가짜 비디오 탐지의 견고성과 일반화 능력을 향상시킵니다. 우리의 모델은 학습 중 Sora 비디오에 노출되지 않았음에도 Sora로 생성된 비디오를 높은 정확도로 탐지할 수 있습니다. 이는 실제와 가짜 비디오 간의 차이가 다양한 비디오 생성 모델에 걸쳐 일반화될 수 있음을 시사합니다. 프로젝트 페이지: https://justin-crchang.github.io/3DCNNDetection.github.io/
English
Recent advancements in diffusion-based video generation have showcased remarkable results, yet the gap between synthetic and real-world videos remains under-explored. In this study, we examine this gap from three fundamental perspectives: appearance, motion, and geometry, comparing real-world videos with those generated by a state-of-the-art AI model, Stable Video Diffusion. To achieve this, we train three classifiers using 3D convolutional networks, each targeting distinct aspects: vision foundation model features for appearance, optical flow for motion, and monocular depth for geometry. Each classifier exhibits strong performance in fake video detection, both qualitatively and quantitatively. This indicates that AI-generated videos are still easily detectable, and a significant gap between real and fake videos persists. Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of AI-generated videos in appearance, motion, and geometry. Finally, we propose an Ensemble-of-Experts model that integrates appearance, optical flow, and depth information for fake video detection, resulting in enhanced robustness and generalization ability. Our model is capable of detecting videos generated by Sora with high accuracy, even without exposure to any Sora videos during training. This suggests that the gap between real and fake videos can be generalized across various video generative models. Project page: https://justin-crchang.github.io/3DCNNDetection.github.io/

Summary

AI-Generated Summary

PDF165November 28, 2024