Тест на видеореальность: могут ли созданные ИИ ASMR-видео обмануть визуальные языковые модели и людей?
Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?
December 15, 2025
Авторы: Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin Qinghong Lin
cs.AI
Аннотация
Последние достижения в области генерации видео позволяют создавать настолько реалистичный контент, что зачастую его невозможно отличить от настоящих видеозаписей, что делает задачу детектирования видео, сгенерированного ИИ, актуальной социальной проблемой. Существующие бенчмарки для обнаружения AIGC-контента в основном оценивают видео без звуковой дорожки, ориентированы на широкие нарративные области и сфокусированы исключительно на классификации. При этом остается неясным, способны ли современные модели генерации видео создавать иммерсивные видео со звуком, которые могут надежно обмануть как человека, так и VLMs (визуально-языковые модели). Для решения этой задачи мы представляем Video Reality Test — набор бенчмарков на основе ASMR-видео для тестирования перцептивной реалистичности в условиях тесной аудиовизуальной связи, который характеризуется следующими аспектами: (i) Иммерсивные ASMR-видео с аудио. Бенчмарк построен на тщательно отобранных реальных ASMR-видео и нацелен на анализ тонких взаимодействий «действие-объект» с разнообразием объектов, действий и фонов. (ii) Оценка по принципу рецензирования. Используется протокол «создатель-рецензент», в котором модели генерации видео выступают в роли создателей, стремящихся обмануть рецензентов, а VLMs действуют как рецензенты, пытающиеся выявить подделку. Результаты нашего эксперимента показывают: лучшая модель-создатель Veo3.1-Fast обманывает большинство VLMs: самый сильный рецензент (Gemini 2.5-Pro) достигает точности всего 56% (при случайном угадывании 50%), что значительно ниже показателя экспертов-людей (81,25%). Добавление аудио улучшает различение реального и сгенерированного контента, однако поверхностные признаки, такие как водяные знаки, все еще могут существенно вводить модели в заблуждение. Эти результаты очерчивают текущие границы реалистичности генерации видео и выявляют ограничения VLMs в оценке перцептивного качества и аудиовизуальной согласованности. Наш код доступен по адресу https://github.com/video-reality-test/video-reality-test.
English
Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: (i) Immersive ASMR video-audio sources. Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. (ii) Peer-Review evaluation. An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.