Zeitblindheit: Warum Video-Sprachmodelle nicht sehen können, was Menschen sehen?

papers.abstract

Jüngste Fortschritte in Vision-Sprache-Modellen (VLMs) haben beeindruckende Fortschritte beim Verständnis räumlich-zeitlicher Beziehungen in Videos erzielt. Wenn jedoch räumliche Informationen verdeckt sind, haben diese Modelle Schwierigkeiten, rein zeitliche Muster zu erfassen. Wir stellen SpookyBench vor, einen Benchmark, bei dem Informationen ausschließlich in zeitlichen Sequenzen von rauschartigen Bildern kodiert sind, die natürliche Phänomene von biologischer Signalübertragung bis hin zu verdeckter Kommunikation widerspiegeln. Interessanterweise können Menschen Formen, Texte und Muster in diesen Sequenzen mit einer Genauigkeit von über 98 % erkennen, während state-of-the-art VLMs eine Genauigkeit von 0 % erreichen. Diese Leistungslücke verdeutlicht eine kritische Einschränkung: eine übermäßige Abhängigkeit von räumlichen Merkmalen auf Bildebene und die Unfähigkeit, Bedeutung aus zeitlichen Hinweisen zu extrahieren. Darüber hinaus verschlechtert sich das zeitliche Verständnis von Modellen, die auf Datensätzen mit niedrigem räumlichen Signal-Rausch-Verhältnis (SNR) trainiert wurden, schneller als die menschliche Wahrnehmung, insbesondere bei Aufgaben, die fein abgestuftes zeitliches Denken erfordern. Die Überwindung dieser Einschränkung wird neue Architekturen oder Trainingsparadigmen erfordern, die räumliche Abhängigkeiten von der zeitlichen Verarbeitung entkoppeln. Unsere systematische Analyse zeigt, dass dieses Problem über verschiedene Modellgrößen und Architekturen hinweg bestehen bleibt. Wir veröffentlichen SpookyBench, um die Forschung im Bereich der zeitlichen Mustererkennung voranzutreiben und die Lücke zwischen menschlichem und maschinellem Videoverständnis zu schließen. Datensatz und Code sind auf unserer Projektwebsite verfügbar: https://timeblindness.github.io/.

English

Recent advances in vision-language models (VLMs) have made impressive strides in understanding spatio-temporal relationships in videos. However, when spatial information is obscured, these models struggle to capture purely temporal patterns. We introduce SpookyBench, a benchmark where information is encoded solely in temporal sequences of noise-like frames, mirroring natural phenomena from biological signaling to covert communication. Interestingly, while humans can recognize shapes, text, and patterns in these sequences with over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance gap highlights a critical limitation: an over-reliance on frame-level spatial features and an inability to extract meaning from temporal cues. Furthermore, when trained in data sets with low spatial signal-to-noise ratios (SNR), temporal understanding of models degrades more rapidly than human perception, especially in tasks requiring fine-grained temporal reasoning. Overcoming this limitation will require novel architectures or training paradigms that decouple spatial dependencies from temporal processing. Our systematic analysis shows that this issue persists across model scales and architectures. We release SpookyBench to catalyze research in temporal pattern recognition and bridge the gap between human and machine video understanding. Dataset and code has been made available on our project website: https://timeblindness.github.io/.

Zeitblindheit: Warum Video-Sprachmodelle nicht sehen können, was Menschen sehen?

Time Blindness: Why Video-Language Models Can't See What Humans Can?

papers.abstract

Support