Что важно при обнаружении видеороликов, созданных искусственным интеллектом, подобных Sora?
What Matters in Detecting AI-Generated Videos like Sora?
June 27, 2024
Авторы: Chirui Chang, Zhengzhe Liu, Xiaoyang Lyu, Xiaojuan Qi
cs.AI
Аннотация
Недавние достижения в генерации видео на основе диффузии продемонстрировали выдающиеся результаты, однако разрыв между синтетическими и видео из реального мира остается мало исследованным. В данном исследовании мы исследуем этот разрыв с трех фундаментальных точек зрения: внешности, движения и геометрии, сравнивая видео из реального мира с теми, которые генерирует передовая модель искусственного интеллекта Stable Video Diffusion. Для достижения этой цели мы обучаем три классификатора с использованием трехмерных сверточных сетей, каждый из которых нацелен на различные аспекты: модель основы зрения для внешности, оптический поток для движения и монокулярная глубина для геометрии. Каждый классификатор демонстрирует высокую производительность в обнаружении фальшивых видео как качественно, так и количественно. Это указывает на то, что видео, созданные искусственным интеллектом, по-прежнему легко обнаружимы, и значительный разрыв между реальными и фальшивыми видео сохраняется. Кроме того, используя Grad-CAM, мы выявляем систематические сбои в видео, созданных искусственным интеллектом, в аспектах внешности, движения и геометрии. Наконец, мы предлагаем модель "Ансамбль экспертов", которая интегрирует информацию о внешности, оптическом потоке и глубине для обнаружения фальшивых видео, что приводит к улучшенной устойчивости и способности к обобщению. Наша модель способна обнаруживать видео, созданные Sora, с высокой точностью, даже без предварительного знакомства с какими-либо видео Sora во время обучения. Это свидетельствует о том, что разрыв между реальными и фальшивыми видео может быть обобщен на различные модели генерации видео. Страница проекта: https://justin-crchang.github.io/3DCNNDetection.github.io/
English
Recent advancements in diffusion-based video generation have showcased
remarkable results, yet the gap between synthetic and real-world videos remains
under-explored. In this study, we examine this gap from three fundamental
perspectives: appearance, motion, and geometry, comparing real-world videos
with those generated by a state-of-the-art AI model, Stable Video Diffusion. To
achieve this, we train three classifiers using 3D convolutional networks, each
targeting distinct aspects: vision foundation model features for appearance,
optical flow for motion, and monocular depth for geometry. Each classifier
exhibits strong performance in fake video detection, both qualitatively and
quantitatively. This indicates that AI-generated videos are still easily
detectable, and a significant gap between real and fake videos persists.
Furthermore, utilizing the Grad-CAM, we pinpoint systematic failures of
AI-generated videos in appearance, motion, and geometry. Finally, we propose an
Ensemble-of-Experts model that integrates appearance, optical flow, and depth
information for fake video detection, resulting in enhanced robustness and
generalization ability. Our model is capable of detecting videos generated by
Sora with high accuracy, even without exposure to any Sora videos during
training. This suggests that the gap between real and fake videos can be
generalized across various video generative models. Project page:
https://justin-crchang.github.io/3DCNNDetection.github.io/Summary
AI-Generated Summary