Cegueira Temporal: Por Que Modelos de Vídeo-Linguagem Não Conseguem Ver o Que os Humanos Veem?
Time Blindness: Why Video-Language Models Can't See What Humans Can?
May 30, 2025
Autores: Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
cs.AI
Resumo
Avanços recentes em modelos de visão e linguagem (VLMs) têm alcançado progressos impressionantes na compreensão de relações espaço-temporais em vídeos. No entanto, quando a informação espacial é obscurecida, esses modelos têm dificuldade em capturar padrões puramente temporais. Apresentamos o SpookyBench, um benchmark onde a informação é codificada exclusivamente em sequências temporais de quadros semelhantes a ruído, refletindo fenômenos naturais que vão desde sinalização biológica até comunicação secreta. Curiosamente, enquanto humanos conseguem reconhecer formas, textos e padrões nessas sequências com mais de 98% de precisão, os VLMs de última geração atingem 0% de precisão. Essa lacuna de desempenho destaca uma limitação crítica: uma dependência excessiva em características espaciais no nível do quadro e uma incapacidade de extrair significado a partir de pistas temporais. Além disso, quando treinados em conjuntos de dados com baixas taxas sinal-ruído (SNR) espaciais, a compreensão temporal dos modelos se degrada mais rapidamente do que a percepção humana, especialmente em tarefas que exigem raciocínio temporal refinado. Superar essa limitação exigirá novas arquiteturas ou paradigmas de treinamento que desacoplem dependências espaciais do processamento temporal. Nossa análise sistemática mostra que esse problema persiste em diferentes escalas e arquiteturas de modelos. Disponibilizamos o SpookyBench para catalisar pesquisas em reconhecimento de padrões temporais e reduzir a lacuna entre a compreensão humana e a máquina de vídeos. O conjunto de dados e o código estão disponíveis em nosso site do projeto: https://timeblindness.github.io/.
English
Recent advances in vision-language models (VLMs) have made impressive strides
in understanding spatio-temporal relationships in videos. However, when spatial
information is obscured, these models struggle to capture purely temporal
patterns. We introduce SpookyBench, a benchmark where information is
encoded solely in temporal sequences of noise-like frames, mirroring natural
phenomena from biological signaling to covert communication. Interestingly,
while humans can recognize shapes, text, and patterns in these sequences with
over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance
gap highlights a critical limitation: an over-reliance on frame-level spatial
features and an inability to extract meaning from temporal cues. Furthermore,
when trained in data sets with low spatial signal-to-noise ratios (SNR),
temporal understanding of models degrades more rapidly than human perception,
especially in tasks requiring fine-grained temporal reasoning. Overcoming this
limitation will require novel architectures or training paradigms that decouple
spatial dependencies from temporal processing. Our systematic analysis shows
that this issue persists across model scales and architectures. We release
SpookyBench to catalyze research in temporal pattern recognition and bridge the
gap between human and machine video understanding. Dataset and code has been
made available on our project website: https://timeblindness.github.io/.