Detecção sem Treinamento de Vídeos Gerados por Meio de Verossimilhanças Espaço-Temporais

Resumo

Após grandes avanços na geração de texto e imagem, o domínio de vídeo teve um crescimento exponencial, produzindo sequências altamente realistas e controláveis. Paralelamente a este progresso, estes modelos também levantam sérias preocupações sobre desinformação, tornando a detecção confiável de vídeos sintéticos cada vez mais crucial. Os detectores baseados em imagem são fundamentalmente limitados porque operam por fotograma e ignoram a dinâmica temporal, enquanto os detectores de vídeo supervisionados generalizam mal para geradores não vistos, uma desvantagem crítica dada a rápida emergência de novos modelos. Estes desafios motivam abordagens de detecção *zero-shot*, que evitam dados sintéticos e, em vez disso, avaliam o conteúdo com base em estatísticas de dados reais, permitindo uma detecção livre de treinamento e independente do modelo. Apresentamos o STALL, um detector simples, livre de treinamento e teoricamente fundamentado que fornece uma pontuação baseada em verossimilhança para vídeos, modelando conjuntamente evidências espaciais e temporais dentro de uma estrutura probabilística. Avaliamos o STALL em dois benchmarks públicos e introduzimos o ComGenVid, um novo benchmark com modelos generativos de última geração. O STALL supera consistentemente as linhas de base anteriores baseadas em imagem e vídeo. O código e os dados estão disponíveis em https://omerbenhayun.github.io/stall-video.

English

Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce STALL, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.

Detecção sem Treinamento de Vídeos Gerados por Meio de Verossimilhanças Espaço-Temporais

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

Resumo

Support