Teste de Realidade em Vídeo: Vídeos ASMR Gerados por IA Podem Enganar Modelos de Linguagem Visual e Humanos?

Resumo

Os recentes avanços na geração de vídeo têm produzido conteúdos vívidos que frequentemente são indistinguíveis de vídeos reais, tornando a deteção de vídeos gerados por IA um desafio societário emergente. Os benchmarks anteriores de deteção de AIGC avaliam maioritariamente vídeo sem áudio, visam domínios narrativos amplos e focam-se apenas na classificação. No entanto, permanece pouco claro se os modelos de geração de vídeo state-of-the-art podem produzir vídeos imersivos com áudio que enganem de forma fiável humanos e VLMs (Modelos de Linguagem Visual). Para tal, introduzimos o Video Reality Test, um conjunto de benchmarks de vídeo com origem em ASMR para testar o realismo perceptual sob um forte acoplamento áudio-visual, caracterizado pelas seguintes dimensões: (i) Fontes de vídeo-áudio ASMR imersivas. Construído com base em vídeos ASMR reais cuidadosamente curados, o benchmark visa interações ação-objeto de granularidade fina com diversidade em objetos, ações e fundos. (ii) Avaliação por Pares (Peer-Review). Um protocolo criador-revisor adversarial onde os modelos de geração de vídeo atuam como criadores com o objetivo de enganar os revisores, enquanto os VLMs servem como revisores que procuram identificar falsificações. As nossas descobertas experimentais mostram: O melhor criador, Veo3.1-Fast, chega a enganar a maioria dos VLMs: o revisor mais forte (Gemini 2.5-Pro) atinge apenas 56% de precisão (aleatório 50%), muito abaixo da dos especialistas humanos (81,25%). Adicionar áudio melhora a discriminação real-falso, contudo, pistas superficiais como marcas de água ainda podem enganar significativamente os modelos. Estas descobertas delineiam a fronteira atual do realismo na geração de vídeo e expõem as limitações dos VLMs na fidelidade perceptual e na consistência áudio-visual. O nosso código está disponível em https://github.com/video-reality-test/video-reality-test.

English

Recent advances in video generation have produced vivid content that are often indistinguishable from real videos, making AI-generated video detection an emerging societal challenge. Prior AIGC detection benchmarks mostly evaluate video without audio, target broad narrative domains, and focus on classification solely. Yet it remains unclear whether state-of-the-art video generation models can produce immersive, audio-paired videos that reliably deceive humans and VLMs. To this end, we introduce Video Reality Test, an ASMR-sourced video benchmark suite for testing perceptual realism under tight audio-visual coupling, featuring the following dimensions: (i) Immersive ASMR video-audio sources. Built on carefully curated real ASMR videos, the benchmark targets fine-grained action-object interactions with diversity across objects, actions, and backgrounds. (ii) Peer-Review evaluation. An adversarial creator-reviewer protocol where video generation models act as creators aiming to fool reviewers, while VLMs serve as reviewers seeking to identify fakeness. Our experimental findings show: The best creator Veo3.1-Fast even fools most VLMs: the strongest reviewer (Gemini 2.5-Pro) achieves only 56\% accuracy (random 50\%), far below that of human experts (81.25\%). Adding audio improves real-fake discrimination, yet superficial cues such as watermarks can still significantly mislead models. These findings delineate the current boundary of video generation realism and expose limitations of VLMs in perceptual fidelity and audio-visual consistency. Our code is available at https://github.com/video-reality-test/video-reality-test.

Teste de Realidade em Vídeo: Vídeos ASMR Gerados por IA Podem Enganar Modelos de Linguagem Visual e Humanos?

Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

Resumo

Support