Detección sin entrenamiento de videos generados mediante verosimilitudes espacio-temporales
Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods
March 16, 2026
Autores: Omer Ben Hayun, Roy Betser, Meir Yossef Levi, Levi Kassel, Guy Gilboa
cs.AI
Resumen
Tras los importantes avances en la generación de texto e imágenes, el ámbito del video ha experimentado un auge, produciendo secuencias altamente realistas y controlables. Paralelamente a este progreso, estos modelos también generan serias preocupaciones sobre la desinformación, lo que hace que la detección fiable de videos sintéticos sea cada vez más crucial. Los detectores basados en imágenes son limitados por naturaleza, ya que operan por fotograma e ignoran la dinámica temporal, mientras que los detectores de video supervisados generalizan pobremente a generadores no vistos, una desventaja crítica dada la rápida aparición de nuevos modelos. Estos desafíos motivan los enfoques de *zero-shot*, que evitan el uso de datos sintéticos y, en su lugar, evalúan el contenido comparándolo con estadísticas de datos reales, permitiendo una detección independiente del modelo y sin necesidad de entrenamiento. Presentamos STALL, un detector sencillo, sin necesidad de entrenamiento y con fundamento teórico, que proporciona una puntuación basada en verosimilitud para videos, modelando conjuntamente la evidencia espacial y temporal dentro de un marco probabilístico. Evaluamos STALL en dos benchmarks públicos e introducimos ComGenVid, un nuevo benchmark con modelos generativos de vanguardia. STALL supera consistentemente a los métodos de referencia previos basados en imágenes y video. El código y los datos están disponibles en https://omerbenhayun.github.io/stall-video.
English
Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce STALL, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.