Prueba de Realidad en Video: ¿Pueden los Videos ASMR Generados por IA Engañar a los Modelos de Lenguaje Visual y a los Humanos?
Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?
December 15, 2025
Autores: Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin Qinghong Lin
cs.AI
Resumen
Los recientes avances en generación de vídeo han producido contenidos vívidos que a menudo son indistinguibles de vídeos reales, convirtiendo la detección de vídeos generados por IA en un desafío social emergente. Los benchmarks de detección AIGC anteriores evalúan principalmente vídeos sin audio, se centran en dominios narrativos amplios y se limitan a la clasificación. Sin embargo, sigue sin estar claro si los modelos de generación de vídeo más avanzados pueden producir vídeos inmersivos con audio que engañen de forma fiable a humanos y a Modelos de Lenguaje Visual (VLM). Para ello, presentamos Video Reality Test, un conjunto de benchmarks de vídeo basado en ASMR para evaluar el realismo perceptual bajo un estrecho acoplamiento audiovisual, que presenta las siguientes dimensiones: (i) Fuentes de vídeo-audio ASMR inmersivas. Construido a partir de vídeos ASMR reales cuidadosamente seleccionados, el benchmark se centra en interacciones objeto-acción de grano fino con diversidad en objetos, acciones y fondos. (ii) Evaluación por pares. Un protocolo adversario creador-revisor donde los modelos de generación de vídeo actúan como creadores que intentan engañar a los revisores, mientras que los VLMs sirven como revisores que buscan identificar la falsedad. Nuestros hallazgos experimentales muestran: El mejor creador, Veo3.1-Fast, engaña incluso a la mayoría de los VLMs: el revisor más fuerte (Gemini 2.5-Pro) alcanza solo un 56% de precisión (aleatorio 50%), muy por debajo de la de expertos humanos (81.25%). Añadir audio mejora la discriminación real-falso, pero señales superficiales como marcas de agua aún pueden engañar significativamente a los modelos. Estos hallazgos delinean el límite actual del realismo en la generación de vídeo y exponen las limitaciones de los VLMs en fidelidad perceptual y consistencia audiovisual. Nuestro código está disponible en https://github.com/video-reality-test/video-reality-test.
English
Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: (i) Immersive ASMR video-audio sources. Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. (ii) Peer-Review evaluation. An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.