ChatPaper.aiChatPaper

Cecità Temporale: Perché i Modelli Video-Linguistici Non Riescono a Vedere Ciò che gli Umani Possono?

Time Blindness: Why Video-Language Models Can't See What Humans Can?

May 30, 2025
Autori: Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
cs.AI

Abstract

I recenti progressi nei modelli visione-linguaggio (VLMs) hanno compiuto passi impressionanti nella comprensione delle relazioni spazio-temporali nei video. Tuttavia, quando le informazioni spaziali sono oscurate, questi modelli faticano a catturare schemi puramente temporali. Introduciamo SpookyBench, un benchmark in cui le informazioni sono codificate esclusivamente in sequenze temporali di frame simili a rumore, che rispecchiano fenomeni naturali che vanno dalla segnalazione biologica alla comunicazione covert. Curiosamente, mentre gli esseri umani riescono a riconoscere forme, testo e schemi in queste sequenze con un'accuratezza superiore al 98%, i VLMs all'avanguardia raggiungono un'accuratezza dello 0%. Questo divario di prestazioni evidenzia una limitazione critica: un'eccessiva dipendenza dalle caratteristiche spaziali a livello di frame e un'incapacità di estrarre significato dai segnali temporali. Inoltre, quando addestrati su dataset con bassi rapporti segnale-rumore (SNR) spaziali, la comprensione temporale dei modelli si degrada più rapidamente rispetto alla percezione umana, specialmente in compiti che richiedono un ragionamento temporale fine. Superare questa limitazione richiederà architetture o paradigmi di addestramento innovativi che disaccoppino le dipendenze spaziali dall'elaborazione temporale. La nostra analisi sistematica dimostra che questo problema persiste indipendentemente dalla scala e dall'architettura del modello. Rilasciamo SpookyBench per catalizzare la ricerca nel riconoscimento di schemi temporali e colmare il divario tra la comprensione umana e quella delle macchine nei video. Il dataset e il codice sono disponibili sul nostro sito web del progetto: https://timeblindness.github.io/.
English
Recent advances in vision-language models (VLMs) have made impressive strides in understanding spatio-temporal relationships in videos. However, when spatial information is obscured, these models struggle to capture purely temporal patterns. We introduce SpookyBench, a benchmark where information is encoded solely in temporal sequences of noise-like frames, mirroring natural phenomena from biological signaling to covert communication. Interestingly, while humans can recognize shapes, text, and patterns in these sequences with over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance gap highlights a critical limitation: an over-reliance on frame-level spatial features and an inability to extract meaning from temporal cues. Furthermore, when trained in data sets with low spatial signal-to-noise ratios (SNR), temporal understanding of models degrades more rapidly than human perception, especially in tasks requiring fine-grained temporal reasoning. Overcoming this limitation will require novel architectures or training paradigms that decouple spatial dependencies from temporal processing. Our systematic analysis shows that this issue persists across model scales and architectures. We release SpookyBench to catalyze research in temporal pattern recognition and bridge the gap between human and machine video understanding. Dataset and code has been made available on our project website: https://timeblindness.github.io/.
PDF803June 2, 2025