Rilevamento senza addestramento di video generati tramite verosimiglianze spazio-temporali

Abstract

Dopo i principali progressi nella generazione di testi e immagini, il dominio video ha registrato un'impennata, producendo sequenze altamente realistiche e controllabili. Parallelamente a questi progressi, questi modelli sollevano anche serie preoccupazioni riguardo alla disinformazione, rendendo sempre più cruciale il rilevamento affidabile di video sintetici. I rilevatori basati su immagini sono fondamentalmente limitati perché operano per fotogramma e ignorano la dinamica temporale, mentre i rilevatori video supervisionati generalizzano male ai generatori non visti, uno svantaggio critico data la rapida emergenza di nuovi modelli. Queste sfide motivano approcci zero-shot, che evitano l'uso di dati sintetici e invece valutano il contenuto confrontandolo con le statistiche dei dati reali, consentendo un rilevamento indipendente dall'addestramento e agnostico rispetto al modello. Introduciamo STALL, un rilevatore semplice, che non richiede addestramento e teoricamente giustificato, che fornisce una valutazione basata sulla verosimiglianza per i video, modellando congiuntamente le evidenze spaziali e temporali all'interno di un quadro probabilistico. Valutiamo STALL su due benchmark pubblici e introduciamo ComGenVid, un nuovo benchmark con modelli generativi all'avanguardia. STALL supera costantemente i precedenti baseline basati su immagini e video. Il codice e i dati sono disponibili su https://omerbenhayun.github.io/stall-video.

English

Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce STALL, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.

Rilevamento senza addestramento di video generati tramite verosimiglianze spazio-temporali

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

Abstract

Support