Временная слепота: почему видеоязыковые модели не видят то, что видят люди?
Time Blindness: Why Video-Language Models Can't See What Humans Can?
May 30, 2025
Авторы: Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
cs.AI
Аннотация
Последние достижения в области моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), позволили добиться впечатляющих успехов в понимании пространственно-временных отношений в видео. Однако, когда пространственная информация скрыта, эти модели испытывают трудности с распознаванием чисто временных паттернов. Мы представляем SpookyBench — эталонный набор данных, в котором информация закодирована исключительно во временных последовательностях шумоподобных кадров, имитирующих природные явления, от биологической сигнализации до скрытой коммуникации. Интересно, что, хотя люди способны распознавать формы, текст и паттерны в этих последовательностях с точностью свыше 98%, современные VLMs демонстрируют 0% точности. Этот разрыв в производительности подчеркивает критическое ограничение: чрезмерную зависимость от пространственных признаков на уровне кадров и неспособность извлекать смысл из временных сигналов. Более того, при обучении на наборах данных с низким отношением сигнал-шум (SNR) в пространственной области, временное понимание моделей ухудшается быстрее, чем у человека, особенно в задачах, требующих детального временного анализа. Преодоление этого ограничения потребует новых архитектур или подходов к обучению, которые разделяют пространственные зависимости и временную обработку. Наш систематический анализ показывает, что эта проблема сохраняется для моделей различных масштабов и архитектур. Мы публикуем SpookyBench, чтобы стимулировать исследования в области распознавания временных паттернов и сократить разрыв между пониманием видео человеком и машиной. Набор данных и код доступны на нашем проектом сайте: https://timeblindness.github.io/.
English
Recent advances in vision-language models (VLMs) have made impressive strides
in understanding spatio-temporal relationships in videos. However, when spatial
information is obscured, these models struggle to capture purely temporal
patterns. We introduce SpookyBench, a benchmark where information is
encoded solely in temporal sequences of noise-like frames, mirroring natural
phenomena from biological signaling to covert communication. Interestingly,
while humans can recognize shapes, text, and patterns in these sequences with
over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance
gap highlights a critical limitation: an over-reliance on frame-level spatial
features and an inability to extract meaning from temporal cues. Furthermore,
when trained in data sets with low spatial signal-to-noise ratios (SNR),
temporal understanding of models degrades more rapidly than human perception,
especially in tasks requiring fine-grained temporal reasoning. Overcoming this
limitation will require novel architectures or training paradigms that decouple
spatial dependencies from temporal processing. Our systematic analysis shows
that this issue persists across model scales and architectures. We release
SpookyBench to catalyze research in temporal pattern recognition and bridge the
gap between human and machine video understanding. Dataset and code has been
made available on our project website: https://timeblindness.github.io/.