Ceguera Temporal: ¿Por Qué los Modelos de Video-Lenguaje No Pueden Ver lo que los Humanos Sí?
Time Blindness: Why Video-Language Models Can't See What Humans Can?
May 30, 2025
Autores: Ujjwal Upadhyay, Mukul Ranjan, Zhiqiang Shen, Mohamed Elhoseiny
cs.AI
Resumen
Los recientes avances en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han logrado progresos impresionantes en la comprensión de relaciones espacio-temporales en videos. Sin embargo, cuando la información espacial está oscurecida, estos modelos tienen dificultades para capturar patrones puramente temporales. Presentamos SpookyBench, un punto de referencia donde la información está codificada únicamente en secuencias temporales de fotogramas similares a ruido, imitando fenómenos naturales que van desde la señalización biológica hasta la comunicación encubierta. Curiosamente, mientras que los humanos pueden reconocer formas, texto y patrones en estas secuencias con una precisión superior al 98%, los VLMs más avanzados logran un 0% de precisión. Esta brecha de rendimiento resalta una limitación crítica: una dependencia excesiva en las características espaciales a nivel de fotograma y una incapacidad para extraer significado a partir de señales temporales. Además, cuando se entrenan en conjuntos de datos con bajas relaciones señal-ruido (SNR) espaciales, la comprensión temporal de los modelos se degrada más rápidamente que la percepción humana, especialmente en tareas que requieren un razonamiento temporal de grano fino. Superar esta limitación requerirá arquitecturas novedosas o paradigmas de entrenamiento que desacoplen las dependencias espaciales del procesamiento temporal. Nuestro análisis sistemático muestra que este problema persiste en diferentes escalas y arquitecturas de modelos. Publicamos SpookyBench para catalizar la investigación en el reconocimiento de patrones temporales y cerrar la brecha entre la comprensión humana y la de las máquinas en videos. El conjunto de datos y el código están disponibles en nuestro sitio web del proyecto: https://timeblindness.github.io/.
English
Recent advances in vision-language models (VLMs) have made impressive strides
in understanding spatio-temporal relationships in videos. However, when spatial
information is obscured, these models struggle to capture purely temporal
patterns. We introduce SpookyBench, a benchmark where information is
encoded solely in temporal sequences of noise-like frames, mirroring natural
phenomena from biological signaling to covert communication. Interestingly,
while humans can recognize shapes, text, and patterns in these sequences with
over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance
gap highlights a critical limitation: an over-reliance on frame-level spatial
features and an inability to extract meaning from temporal cues. Furthermore,
when trained in data sets with low spatial signal-to-noise ratios (SNR),
temporal understanding of models degrades more rapidly than human perception,
especially in tasks requiring fine-grained temporal reasoning. Overcoming this
limitation will require novel architectures or training paradigms that decouple
spatial dependencies from temporal processing. Our systematic analysis shows
that this issue persists across model scales and architectures. We release
SpookyBench to catalyze research in temporal pattern recognition and bridge the
gap between human and machine video understanding. Dataset and code has been
made available on our project website: https://timeblindness.github.io/.