Tijdsblindheid: Waarom Video-Taalmodellen Niet Kunnen Zien Wat Mensen Wel Kunnen?
Time Blindness: Why Video-Language Models Can't See What Humans Can?
May 30, 2025
Auteurs: Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
cs.AI
Samenvatting
Recente vooruitgang in visie-taalmodellen (VLMs) heeft indrukwekkende stappen gezet in het begrijpen van ruimtelijk-temporele relaties in video's. Wanneer ruimtelijke informatie echter wordt verhuld, hebben deze modellen moeite om puur temporele patronen te vatten. Wij introduceren SpookyBench, een benchmark waarin informatie uitsluitend is gecodeerd in temporele sequenties van ruisachtige frames, wat natuurlijke fenomenen nabootst, van biologische signalering tot geheime communicatie. Interessant is dat mensen vormen, tekst en patronen in deze sequenties kunnen herkennen met een nauwkeurigheid van meer dan 98%, terwijl state-of-the-art VLMs een nauwkeurigheid van 0% behalen. Deze prestatiekloof benadrukt een kritieke beperking: een overmatige afhankelijkheid van ruimtelijke kenmerken op frameniveau en een onvermogen om betekenis te halen uit temporele signalen. Bovendien, wanneer getraind op datasets met een lage ruimtelijke signaal-ruisverhouding (SNR), verslechtert het temporele begrip van modellen sneller dan de menselijke waarneming, vooral bij taken die fijnmazige temporele redenering vereisen. Het overwinnen van deze beperking vereist nieuwe architecturen of trainingsparadigma's die ruimtelijke afhankelijkheden loskoppelen van temporele verwerking. Onze systematische analyse toont aan dat dit probleem blijft bestaan over verschillende modelschalen en -architecturen. Wij maken SpookyBench beschikbaar om onderzoek naar temporele patroonherkenning te stimuleren en de kloof tussen menselijk en machinaal videobegrip te overbruggen. De dataset en code zijn beschikbaar gesteld op onze projectwebsite: https://timeblindness.github.io/.
English
Recent advances in vision-language models (VLMs) have made impressive strides
in understanding spatio-temporal relationships in videos. However, when spatial
information is obscured, these models struggle to capture purely temporal
patterns. We introduce SpookyBench, a benchmark where information is
encoded solely in temporal sequences of noise-like frames, mirroring natural
phenomena from biological signaling to covert communication. Interestingly,
while humans can recognize shapes, text, and patterns in these sequences with
over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance
gap highlights a critical limitation: an over-reliance on frame-level spatial
features and an inability to extract meaning from temporal cues. Furthermore,
when trained in data sets with low spatial signal-to-noise ratios (SNR),
temporal understanding of models degrades more rapidly than human perception,
especially in tasks requiring fine-grained temporal reasoning. Overcoming this
limitation will require novel architectures or training paradigms that decouple
spatial dependencies from temporal processing. Our systematic analysis shows
that this issue persists across model scales and architectures. We release
SpookyBench to catalyze research in temporal pattern recognition and bridge the
gap between human and machine video understanding. Dataset and code has been
made available on our project website: https://timeblindness.github.io/.