Zeitblindheit: Warum Video-Sprachmodelle nicht sehen können, was Menschen sehen?
Time Blindness: Why Video-Language Models Can't See What Humans Can?
May 30, 2025
Autoren: Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
cs.AI
Zusammenfassung
Jüngste Fortschritte in Vision-Sprache-Modellen (VLMs) haben beeindruckende Fortschritte beim Verständnis räumlich-zeitlicher Beziehungen in Videos erzielt. Wenn jedoch räumliche Informationen verdeckt sind, haben diese Modelle Schwierigkeiten, rein zeitliche Muster zu erfassen. Wir stellen SpookyBench vor, einen Benchmark, bei dem Informationen ausschließlich in zeitlichen Sequenzen von rauschartigen Bildern kodiert sind, die natürliche Phänomene von biologischer Signalübertragung bis hin zu verdeckter Kommunikation widerspiegeln. Interessanterweise können Menschen Formen, Texte und Muster in diesen Sequenzen mit einer Genauigkeit von über 98 % erkennen, während state-of-the-art VLMs eine Genauigkeit von 0 % erreichen. Diese Leistungslücke verdeutlicht eine kritische Einschränkung: eine übermäßige Abhängigkeit von räumlichen Merkmalen auf Bildebene und die Unfähigkeit, Bedeutung aus zeitlichen Hinweisen zu extrahieren. Darüber hinaus verschlechtert sich das zeitliche Verständnis von Modellen, die auf Datensätzen mit niedrigem räumlichen Signal-Rausch-Verhältnis (SNR) trainiert wurden, schneller als die menschliche Wahrnehmung, insbesondere bei Aufgaben, die fein abgestuftes zeitliches Denken erfordern. Die Überwindung dieser Einschränkung wird neue Architekturen oder Trainingsparadigmen erfordern, die räumliche Abhängigkeiten von der zeitlichen Verarbeitung entkoppeln. Unsere systematische Analyse zeigt, dass dieses Problem über verschiedene Modellgrößen und Architekturen hinweg bestehen bleibt. Wir veröffentlichen SpookyBench, um die Forschung im Bereich der zeitlichen Mustererkennung voranzutreiben und die Lücke zwischen menschlichem und maschinellem Videoverständnis zu schließen. Datensatz und Code sind auf unserer Projektwebsite verfügbar: https://timeblindness.github.io/.
English
Recent advances in vision-language models (VLMs) have made impressive strides
in understanding spatio-temporal relationships in videos. However, when spatial
information is obscured, these models struggle to capture purely temporal
patterns. We introduce SpookyBench, a benchmark where information is
encoded solely in temporal sequences of noise-like frames, mirroring natural
phenomena from biological signaling to covert communication. Interestingly,
while humans can recognize shapes, text, and patterns in these sequences with
over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance
gap highlights a critical limitation: an over-reliance on frame-level spatial
features and an inability to extract meaning from temporal cues. Furthermore,
when trained in data sets with low spatial signal-to-noise ratios (SNR),
temporal understanding of models degrades more rapidly than human perception,
especially in tasks requiring fine-grained temporal reasoning. Overcoming this
limitation will require novel architectures or training paradigms that decouple
spatial dependencies from temporal processing. Our systematic analysis shows
that this issue persists across model scales and architectures. We release
SpookyBench to catalyze research in temporal pattern recognition and bridge the
gap between human and machine video understanding. Dataset and code has been
made available on our project website: https://timeblindness.github.io/.