Беспоисковое обнаружение сгенерированных видео с помощью пространственно-временных правдоподобий

Аннотация

После значительных прорывов в генерации текста и изображений наблюдается стремительный рост развития видео-домена, позволяющего создавать высокореалистичные и управляемые последовательности. Наряду с этим прогрессом, подобные модели также вызывают серьезные опасения относительно дезинформации, что делает надежное обнаружение синтетических видео все более важной задачей. Детекторы, основанные на изображениях, имеют фундаментальное ограничение, поскольку работают с каждым кадром в отдельности и игнорируют временную динамику, в то время как обучаемые видео-детекторы плохо обобщаются на неизвестные генераторы — критический недостаток в условиях быстрого появления новых моделей. Эти проблемы стимулируют развитие подходов с нулевым обучением (zero-shot), которые избегают использования синтетических данных и вместо этого оценивают контент на основе статистики реальных данных, обеспечивая детектирование, не требующее обучения и независимое от модели. Мы представляем STALL — простой, не требующий обучения и теоретически обоснованный детектор, который обеспечивает оценку правдоподобия для видео, совместно моделируя пространственные и временные признаки в рамках вероятностного подхода. Мы оцениваем STALL на двух публичных бенчмарках и представляем ComGenVid — новый бенчмарк с современными генеративными моделями. STALL стабильно превосходит предыдущие базовые методы, основанные на изображениях и видео. Код и данные доступны по адресу https://omerbenhayun.github.io/stall-video.

English

Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce STALL, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.

Беспоисковое обнаружение сгенерированных видео с помощью пространственно-временных правдоподобий

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

Аннотация

Support