ChatPaper.aiChatPaper

ビデオリアリティテスト:AI生成ASMR動画は視覚言語モデルと人間を騙せるか?

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

December 15, 2025
著者: Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin Qinghong Lin
cs.AI

要旨

近年の映像生成技術は目覚ましい進歩を遂げ、実写と見分けがつかないほど鮮明なコンテンツを生成できるようになった。これに伴い、AI生成映像の検出は新たな社会的課題として浮上している。従来のAIGC検出ベンチマークは、音声なしの映像評価が主流で、広範なナラティブ領域を対象とし、分類タスクに焦点を当ててきた。しかし、最先端の映像生成モデルが没入感のある音声付き映像を生成し、人間や視覚言語モデル(VLM)を確実に欺けるかどうかは未解明のままであった。この課題に対処するため、我々は厳密な視聴覚連携下での知覚的リアリズムを評価するASMR由来の映像ベンチマークスイート「Video Reality Test」を提案する。本ベンチマークの特徴は以下の通りである:(i)没入型ASMR映像・音声ソース。厳選された実ASMR映像を基盤とし、物体・動作・背景の多様性を備えた細粒度の動作-物体相互作用に焦点を当てる。(ii)ピアレビュー評価。映像生成モデルが審査員を欺こうとする作成者(creator)役、VLMが虚偽を見破ろうとする審査員(reviewer)役となる敵対的作成者-審査員プロトコルを採用。実験結果から明らかになった知見は以下の通り:最強の作成者Veo3.1-Fastは大半のVLMを欺き、最強の審査員(Gemini 2.5-Pro)の正解率は56%(ランダム選択は50%)に留まり、人間の専門家(81.25%)を大きく下回った。音声の追加は実物と偽物の識別を改善するが、ウォーターマークなどの表面的手がかりがモデルの判断を大きく歪める可能性がある。これらの発見は、現在の映像生成のリアリズム限界を浮き彫りにするとともに、VLMの知覚的忠実度と視聴覚一貫性における課題を露呈するものである。コードはhttps://github.com/video-reality-test/video-reality-test で公開している。
English
Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: (i) Immersive ASMR video-audio sources. Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. (ii) Peer-Review evaluation. An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.
PDF592December 18, 2025