Détection sans entraînement de vidéos générées par des vraisemblances spatio-temporelles

Résumé

Suite aux avancées majeures dans la génération de texte et d'images, le domaine vidéo a connu un essor considérable, produisant des séquences hautement réalistes et contrôlables. Parallèlement à ces progrès, ces modèles soulèvent également de sérieuses inquiétudes concernant la désinformation, rendant la détection fiable des vidéos synthétiques de plus en plus cruciale. Les détecteurs basés sur les images sont fondamentalement limités car ils opèrent image par image et ignorent la dynamique temporelle, tandis que les détecteurs vidéo supervisés généralisent mal aux générateurs non vus, un inconvénient majeur compte tenu de l'émergence rapide de nouveaux modèles. Ces défis motivent les approches zero-shot, qui évitent les données synthétiques et évaluent plutôt le contenu par rapport aux statistiques des données réelles, permettant une détection sans entraînement et agnostique au modèle. Nous présentons STALL, un détecteur simple, sans entraînement et théoriquement justifié, qui fournit un score basé sur la vraisemblance pour les vidéos, modélisant conjointement les preuves spatiales et temporelles dans un cadre probabiliste. Nous évaluons STALL sur deux benchmarks publics et présentons ComGenVid, un nouveau benchmark incluant des modèles génératifs de pointe. STALL surpasse constamment les méthodes de référence antérieures, qu'elles soient basées sur les images ou la vidéo. Le code et les données sont disponibles à l'adresse https://omerbenhayun.github.io/stall-video.

English

Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce STALL, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.

Détection sans entraînement de vidéos générées par des vraisemblances spatio-temporelles

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

Résumé

Support