ChatPaper.aiChatPaper

Video Reality Test: Kunnen door AI gegenereerde ASMR-video's VLMs en mensen voor de gek houden?

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

December 15, 2025
Auteurs: Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin Qinghong Lin
cs.AI

Samenvatting

Recente vooruitgang in videogeneratie heeft levendige content voortgebracht die vaak niet van echte video's te onderscheiden is, waardoor de detectie van AI-gegenereerde video's een opkomende maatschappelijke uitdaging vormt. Eerdere AIGC-detectiebenchmarks evalueren video's meestal zonder audio, richten zich op brede narratieve domeinen en focussen uitsluitend op classificatie. Het blijft echter onduidelijk of state-of-the-art videogeneratiemodellen immersieve, audiogepaarde video's kunnen produceren die mensen en Vision-Language Models (VLMs) betrouwbaar misleiden. Hiertoe introduceren we de Video Reality Test, een benchmark suite met ASMR-gesourcete video's voor het testen van perceptueel realisme onder strikte audio-visuele koppeling, met de volgende dimensies: (i) Immersieve ASMR video-audiobronnen. Gebaseerd op zorgvuldig gecureerde echte ASMR-video's, richt de benchmark zich op fijnmazige actie-objectinteracties met diversiteit in objecten, acties en achtergronden. (ii) Peer-Review evaluatie. Een adversarieel creator-reviewerprotocol waarbij videogeneratiemodellen fungeren als creators die reviewers proberen te misleiden, terwijl VLMs dienen als reviewers die authenticiteit proberen te identificeren. Onze experimentele bevindingen tonen aan: De beste creator, Veo3.1-Fast, misleidt zelfs de meeste VLMs: de sterkste reviewer (Gemini 2.5-Pro) behaalt slechts 56% nauwkeurigheid (willekeurig 50%), ver onder die van menselijke experts (81,25%). Het toevoegen van audio verbetert de discriminatie tussen echt en nep, maar oppervlakkige aanwijzingen zoals watermerken kunnen modellen nog steeds significant misleiden. Deze bevindingen schetsen de huidige grens van videogeneratierealisme en bloot de beperkingen van VLMs op het gebied van perceptuele geloofwaardigheid en audio-visuele consistentie. Onze code is beschikbaar op https://github.com/video-reality-test/video-reality-test.
English
Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: (i) Immersive ASMR video-audio sources. Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. (ii) Peer-Review evaluation. An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.
PDF592December 18, 2025