ChatPaper.aiChatPaper

Video-Realitätstest: Können KI-generierte ASMR-Videos VLMs und Menschen täuschen?

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

December 15, 2025
papers.authors: Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin Qinghong Lin
cs.AI

papers.abstract

Jüngste Fortschritte in der Videogenerierung haben lebendige Inhalte hervorgebracht, die oft nicht von echten Videos zu unterscheiden sind, was die Erkennung von KI-generierten Videos zu einer neuen gesellschaftlichen Herausforderung macht. Bisherige AIGC-Erkennungs-Benchmarks bewerten Videos meist ohne Audio, zielen auf breite narrative Domänen ab und konzentrieren sich hauptsächlich auf Klassifizierung. Dennoch bleibt unklar, ob moderne Videogenerierungsmodelle immersive Videos mit Audio erzeugen können, die Menschen und VLMs (Vision-Language Models) zuverlässig täuschen. Zu diesem Zweck stellen wir den Video Reality Test vor, eine Benchmark-Suite auf Basis von ASMR-Videos, um die perzeptuelle Realitätsnähe unter enger audio-visueller Kopplung zu testen, mit folgenden Merkmalen: (i) Immersive ASMR-Video-Audio-Quellen. Auf Basis sorgfältig kuratierter echter ASMR-Videos zielt die Benchmark auf feinkörnige Aktions-Objekt-Interaktionen mit Vielfalt bei Objekten, Aktionen und Hintergründen ab. (ii) Peer-Review-Bewertung. Ein adversarielles Creator-Reviewer-Protokoll, bei dem Videogenerierungsmodelle als Creator agieren, die Reviewer täuschen wollen, während VLMs als Reviewer fungieren, die Fälschungen identifizieren sollen. Unsere experimentellen Ergebnisse zeigen: Der beste Creator Veo3.1-Fast täuscht sogar die meisten VLMs: der stärkste Reviewer (Gemini 2.5-Pro) erreicht nur 56\% Genauigkeit (Zufall: 50\%), weit unter der von menschlichen Experten (81,25\%). Die Hinzunahme von Audio verbessert die Echtheitserkennung, doch oberflächliche Hinweise wie Wasserzeichen können Modelle immer noch erheblich in die Irre führen. Diese Ergebnisse skizzieren die aktuelle Grenze der Realitätsnähe von Videogenerierung und decken Limitationen von VLMs bei perzeptueller Treue und audio-visueller Konsistenz auf. Unser Code ist verfügbar unter https://github.com/video-reality-test/video-reality-test.
English
Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: (i) Immersive ASMR video-audio sources. Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. (ii) Peer-Review evaluation. An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.
PDF592December 18, 2025