ChatPaper.aiChatPaper

Test de réalité vidéo : Les vidéos ASMR générées par IA peuvent-elles tromper les modèles de vision linguistique et les humains ?

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

December 15, 2025
papers.authors: Jiaqi Wang, Weijia Wu, Yi Zhan, Rui Zhao, Ming Hu, James Cheng, Wei Liu, Philip Torr, Kevin Qinghong Lin
cs.AI

papers.abstract

Les récents progrès en génération vidéo ont produit des contenus si réalistes qu'ils deviennent souvent indiscernables des vidéos authentiques, faisant de la détection des vidéos générées par IA un enjeu sociétal émergent. Les benchmarks antérieurs de détection AIGC évaluent principalement des vidéos sans audio, ciblent des domaines narratifs larges et se concentrent exclusivement sur la classification. Pourtant, il reste incertain si les modèles de génération vidéo les plus avancés peuvent produire des vidéos immersives avec audio qui trompent efficacement les humains et les modèles vision-langage (VLM). Pour répondre à cette question, nous présentons Video Reality Test, une suite de benchmarks vidéo basée sur des sources ASMR pour tester le réalisme perceptuel sous couplage audio-visuel serré, comportant les dimensions suivantes : (i) Des sources vidéo-audio ASMR immersives. Construit sur une sélection rigoureuse de vidéos ASMR réelles, le benchmark cible des interactions action-objet granulaires avec une diversité d'objets, d'actions et d'arrière-plans. (ii) Évaluation par les pairs. Un protocole créateur-relecteur adversarial où les modèles de génération vidéo jouent le rôle de créateurs cherchant à tromper les relecteurs, tandis que les VLM servent de relecteurs tentant d'identifier les faux contenus. Nos résultats expérimentaux montrent que : Le meilleur créateur Veo3.1-Fast trompe même la plupart des VLM : le relecteur le plus performant (Gemini 2.5-Pro) n'atteint que 56% de précision (aléatoire 50%), bien en deçà des experts humains (81,25%). L'ajout d'audio amliore la discrimination réel-faux, mais des indices superficiels comme les filigranes peuvent encore induire significativement les modèles en erreur. Ces résultats délimitent la frontière actuelle du réalisme en génération vidéo et exposent les limitations des VLM en matière de fidélité perceptuelle et de cohérence audio-visuelle. Notre code est disponible à l'adresse https://github.com/video-reality-test/video-reality-test.
English
Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: (i) Immersive ASMR video-audio sources. Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. (ii) Peer-Review evaluation. An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.
PDF592December 18, 2025