Cécité temporelle : Pourquoi les modèles vidéo-langage ne voient-ils pas ce que les humains perçoivent ?
Time Blindness: Why Video-Language Models Can't See What Humans Can?
May 30, 2025
Auteurs: Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
cs.AI
Résumé
Les récents progrès des modèles vision-langage (VLMs) ont permis des avancées impressionnantes dans la compréhension des relations spatio-temporelles dans les vidéos. Cependant, lorsque l'information spatiale est obscurcie, ces modèles peinent à capturer des motifs purement temporels. Nous présentons SpookyBench, un benchmark où l'information est encodée uniquement dans des séquences temporelles d'images ressemblant à du bruit, reflétant des phénomènes naturels allant de la signalisation biologique à la communication secrète. Fait intéressant, alors que les humains peuvent reconnaître des formes, du texte et des motifs dans ces séquences avec une précision supérieure à 98 %, les VLMs de pointe atteignent une précision de 0 %. Cet écart de performance met en lumière une limitation critique : une dépendance excessive aux caractéristiques spatiales au niveau des images et une incapacité à extraire du sens à partir des indices temporels. De plus, lorsqu'ils sont entraînés sur des ensembles de données avec un faible rapport signal-sur-bruit (SNR) spatial, la compréhension temporelle des modèles se dégrade plus rapidement que la perception humaine, en particulier dans les tâches nécessitant un raisonnement temporel fin. Surmonter cette limitation nécessitera des architectures ou des paradigmes d'entraînement novateurs qui découplent les dépendances spatiales du traitement temporel. Notre analyse systématique montre que ce problème persiste à travers les échelles et les architectures de modèles. Nous publions SpookyBench pour catalyser la recherche en reconnaissance de motifs temporels et combler le fossé entre la compréhension humaine et machine des vidéos. Le jeu de données et le code sont disponibles sur notre site web : https://timeblindness.github.io/.
English
Recent advances in vision-language models (VLMs) have made impressive strides
in understanding spatio-temporal relationships in videos. However, when spatial
information is obscured, these models struggle to capture purely temporal
patterns. We introduce SpookyBench, a benchmark where information is
encoded solely in temporal sequences of noise-like frames, mirroring natural
phenomena from biological signaling to covert communication. Interestingly,
while humans can recognize shapes, text, and patterns in these sequences with
over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance
gap highlights a critical limitation: an over-reliance on frame-level spatial
features and an inability to extract meaning from temporal cues. Furthermore,
when trained in data sets with low spatial signal-to-noise ratios (SNR),
temporal understanding of models degrades more rapidly than human perception,
especially in tasks requiring fine-grained temporal reasoning. Overcoming this
limitation will require novel architectures or training paradigms that decouple
spatial dependencies from temporal processing. Our systematic analysis shows
that this issue persists across model scales and architectures. We release
SpookyBench to catalyze research in temporal pattern recognition and bridge the
gap between human and machine video understanding. Dataset and code has been
made available on our project website: https://timeblindness.github.io/.