ChatPaper.aiChatPaper

공간-시간 가능도를 이용한 생성 영상 무감지 탐지

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

March 16, 2026
저자: Omer Ben Hayun, Roy Betser, Meir Yossef Levi, Levi Kassel, Guy Gilboa
cs.AI

초록

텍스트 및 이미지 생성의 주요 발전에 이어 비디오 분야가 급부상하며 매우 사실적이고 제어 가능한 영상 시퀀스를 생산해내고 있습니다. 이러한 진전과 함께, 이러한 모델들은 허위정보에 대한 심각한 우려도 제기하여 합성 비디오의 신뢰할 수 있는 탐지가 점점 더 중요해지고 있습니다. 이미지 기반 탐지기는 프레임 단위로 작동하고 시간적 동역학을 무시하기 때문에 근본적인 한계가 있으며, 지도 학습 비디오 탐지기는 보지 못한 생성 모델에 대한 일반화 성능이 낮아 새로운 모델이 빠르게 등장하는 현 상황에서 치명적인 단점을 보입니다. 이러한 과제들은 합성 데이터를 사용하지 않고 대신 실제 데이터 통계에 대해 콘텐츠를 평가하여 학습이 필요 없고 모델에 구애받지 않는 탐지를 가능하게 하는 제로샷 접근법의 동기가 됩니다. 우리는 확률론적 프레임워크 내에서 공간적 및 시간적 증거를 공동으로 모델링하여 비디오에 대한 가능도 기반 점수를 제공하는 간단하고 학습이 필요 없으며 이론적으로 타당한 탐지기인 STALL을 소개합니다. 우리는 STALL을 두 개의 공개 벤치마크에서 평가하고 최신 생성 모델을 포함한 새로운 벤치마크인 ComGenVid를 도입했습니다. STALL은 기존의 이미지 및 비디오 기반 기준 방법들을 지속적으로 능가했습니다. 코드와 데이터는 https://omerbenhayun.github.io/stall-video에서 확인할 수 있습니다.
English
Following major advances in text and image generation, the video domain has surged, producing highly realistic and controllable sequences. Along with this progress, these models also raise serious concerns about misinformation, making reliable detection of synthetic videos increasingly crucial. Image-based detectors are fundamentally limited because they operate per frame and ignore temporal dynamics, while supervised video detectors generalize poorly to unseen generators, a critical drawback given the rapid emergence of new models. These challenges motivate zero-shot approaches, which avoid synthetic data and instead score content against real-data statistics, enabling training-free, model-agnostic detection. We introduce STALL, a simple, training-free, theoretically justified detector that provides likelihood-based scoring for videos, jointly modeling spatial and temporal evidence within a probabilistic framework. We evaluate STALL on two public benchmarks and introduce ComGenVid, a new benchmark with state-of-the-art generative models. STALL consistently outperforms prior image- and video-based baselines. Code and data are available at https://omerbenhayun.github.io/stall-video.
PDF82March 18, 2026