Training-freie Erkennung generierter Videos mittels räumlich-zeitlicher Likelihoods

Zusammenfassung

Nach bedeutenden Fortschritten in der Text- und Bildgenerierung hat der Videobereich einen Aufschwung erlebt, der hochrealistische und steuerbare Sequenzen hervorbringt. Parallel zu diesen Entwicklungen werfen diese Modelle auch ernsthafte Bedenken hinsichtlich Fehlinformationen auf, was eine zuverlässige Erkennung synthetischer Videos zunehmend entscheidend macht. Bildbasierte Detektoren sind grundlegend limitiert, da sie pro Frame arbeiten und zeitliche Dynamiken ignorieren, während überwachte Video-Detektoren nur schlecht auf unbekannte Generatoren verallgemeinern – ein kritischer Nachteil angesichts der rasanten Entwicklung neuer Modelle. Diese Herausforderungen motivieren Zero-Shot-Ansätze, die synthetische Daten vermeiden und stattdessen Inhalte anhand von Statistiken echter Daten bewerten, was trainingsfreie, modellagnostische Erkennung ermöglicht. Wir stellen STALL vor, einen einfachen, trainingsfreien, theoretisch fundierten Detektor, der eine likelihood-basierte Bewertung für Videos bereitstellt und räumliche sowie zeitliche Evidenz innerhalb eines probabilistischen Frameworks gemeinsam modelliert. Wir evaluieren STALL anhand zweier öffentlicher Benchmarks und führen ComGenVid ein, einen neuen Benchmark mit modernsten generativen Modellen. STALL übertrifft durchgängig bisherige bild- und videobasierte Baseline-Methoden. Code und Daten sind unter https://omerbenhayun.github.io/stall-video verfügbar.

English

Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce STALL, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.

Training-freie Erkennung generierter Videos mittels räumlich-zeitlicher Likelihoods

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

Zusammenfassung

Support