Training-vrije detectie van gegenereerde video's via ruimtelijk-temporele waarschijnlijkheden

Samenvatting

Na grote vooruitgang in tekst- en beeldgeneratie is het videodomein in een stroomversnelling geraakt, waarbij hoogst realistische en bestuurbare sequenties worden geproduceerd. Samen met deze vooruitgang roepen deze modellen ook ernstige zorgen op over desinformatie, waardoor betrouwbare detectie van synthetische video's steeds crucialer wordt. Op afbeeldingen gebaseerde detectoren zijn fundamenteel beperkt omdat ze per frame werken en temporele dynamiek negeren, terwijl gesuperviseerde videodetectors zich slecht generaliseren naar onbekende generators – een kritiek nadeel gezien de snelle opkomst van nieuwe modellen. Deze uitdagingen motiveren zero-shot-benaderingen, die synthetische data vermijden en in plaats daarvan content scoren tegen statistieken van echte data, waardoor training-vrije, model-agnostische detectie mogelijk wordt. Wij introduceren STALL, een eenvoudige, training-vrije, theoretisch onderbouwde detector die op waarschijnlijkheid gebaseerde scoring voor video's biedt, waarbij ruimtelijk en temporeel bewijs gezamenlijk worden gemodelleerd binnen een probabilistisch kader. We evalueren STALL op twee publieke benchmarks en introduceren ComGenVid, een nieuwe benchmark met state-of-the-art generatieve modellen. STALL presteert consistent beter dan eerdere op afbeeldingen en video's gebaseerde basislijnen. Code en data zijn beschikbaar op https://omerbenhayun.github.io/stall-video.

English

Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce STALL, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.

Training-vrije detectie van gegenereerde video's via ruimtelijk-temporele waarschijnlijkheden

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

Samenvatting

Support