비디오 현실 테스트: AI 생성 ASMR 영상이 VLM과 인간을 속일 수 있을까?
Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?
December 15, 2025
저자: Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin Qinghong Lin
cs.AI
초록
최근 비디오 생성 기술의 발전으로 실사와 구분하기 어려운 생생한 콘텐츠가 등장하면서, AI 생성 비디오 탐지는 새로운 사회적 과제로 대두되고 있습니다. 기존 AIGC 탐지 벤치마크는 대체로 오디오가 없는 비디오를 평가하고, 광범위한 서사 영역을 대상으로 하며, 단순 분류에 집중해 왔습니다. 그러나 최첨단 비디오 생성 모델이 인간과 시각언어모델(VLM)을 안정적으로 속일 수 있는 몰입감 있는 오디오 결합 비디오를 생성할 수 있는지 여부는 여전히 불분명합니다. 이를 위해 우리는 긴밀한 시청각 결합 하에서 지각적 현실감을 테스트하기 위한 ASMR 기반 비디오 벤치마크 제품군인 Video Reality Test를 소개합니다. 이는 다음과 같은 특징을 가집니다: (i) 몰입형 ASMR 비디오-오디오 소스. 신중하게 선별된 실제 ASMR 비디오를 기반으로 하는 이 벤치마크는 객체, 동작, 배경에 걸쳐 다양성을 갖춘 세분화된 행동-객체 상호작용을 대상으로 합니다. (ii) 동료 평가(Peer-Review). 비디오 생성 모델은 검토자를 속이려는 생성자 역할을 하고, VLM은 위조를 식별하려는 검토자 역할을 하는 적대적 생성자-검토자 프로토콜입니다. 우리의 실험 결과는 다음과 같습니다: 가장 우수한 생성자인 Veo3.1-Fast는 대부분의 VLM을 속일 정도이며, 가장 강력한 검토자(Gemini 2.5-Pro)는 56%의 정확도(무작위 50%)에 그쳐 인간 전문가(81.25%)의 성능보다 훨씬 낮습니다. 오디오를 추가하면 진위 판별이 개선되지만, 워터마크와 같은 피상적 단서는 여전히 모델을 크게 오도할 수 있습니다. 이러한 결과는 비디오 생성 현실감의 현재 한계를 규명하고, VLM의 지각적 정확도와 시청각 일관성 측면의 한계를 드러냅니다. 우리의 코드는 https://github.com/video-reality-test/video-reality-test에서 확인할 수 있습니다.
English
Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: (i) Immersive ASMR video-audio sources. Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. (ii) Peer-Review evaluation. An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.