ChatPaper.aiChatPaper

VLM4D: Hacia la Conciencia Espaciotemporal en Modelos de Visión y Lenguaje

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

August 4, 2025
Autores: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi
cs.AI

Resumen

Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) han demostrado capacidades notables para integrar el razonamiento lingüístico y visual, pero siguen siendo fundamentalmente limitados en la comprensión de interacciones espacio-temporales dinámicas. Los seres humanos rastrean y razonan sin esfuerzo sobre los movimientos, rotaciones y cambios de perspectiva de los objetos, habilidades esenciales para una comprensión robusta del mundo real dinámico, pero notablemente ausentes en los VLMs actuales. En este artículo, presentamos VLM4D, el primer punto de referencia diseñado específicamente para evaluar las capacidades de razonamiento espacio-temporal de los VLMs. Nuestro punto de referencia incluye diversos videos del mundo real y sintéticos, acompañados de pares de preguntas y respuestas cuidadosamente seleccionados que enfatizan movimientos traslacionales y rotacionales, conciencia de perspectiva y continuidad del movimiento. A través de evaluaciones exhaustivas de los VLMs de última generación, tanto de código abierto como cerrado, identificamos brechas significativas en el rendimiento en comparación con los puntos de referencia humanos, destacando deficiencias fundamentales en los modelos existentes. Un análisis extenso revela que los VLMs tienen dificultades particularmente para integrar múltiples señales visuales y mantener la coherencia temporal. Además, exploramos direcciones prometedoras, como el aprovechamiento de la reconstrucción de campos de características 4D y el ajuste fino supervisado espacio-temporal específico, demostrando su efectividad para mejorar la comprensión espacio-temporal. Nuestro trabajo tiene como objetivo fomentar una exploración más profunda para mejorar la fundamentación espacial y temporal de los VLMs, allanando el camino hacia una inteligencia visual más capaz y confiable para entornos dinámicos.
English
Vision language models (VLMs) have shown remarkable capabilities in integrating linguistic and visual reasoning but remain fundamentally limited in understanding dynamic spatiotemporal interactions. Humans effortlessly track and reason about object movements, rotations, and perspective shifts-abilities essential for robust dynamic real-world understanding yet notably lacking in current VLMs. In this paper, we introduce VLM4D, the first benchmark specifically designed to evaluate the spatiotemporal reasoning capabilities of VLMs. Our benchmark comprises diverse real-world and synthetic videos accompanied by carefully curated question-answer pairs emphasizing translational and rotational motions, perspective awareness, and motion continuity. Through comprehensive evaluations of state-of-the-art open and closed-source VLMs, we identify significant performance gaps compared to human baselines, highlighting fundamental deficiencies in existing models. Extensive analysis reveals that VLMs struggle particularly with integrating multiple visual cues and maintaining temporal coherence. We further explore promising directions, such as leveraging 4D feature field reconstruction and targeted spatiotemporal supervised fine-tuning, demonstrating their effectiveness in enhancing spatiotemporal comprehension. Our work aims to encourage deeper exploration into improving VLMs' spatial and temporal grounding, paving the way towards more capable and reliable visual intelligence for dynamic environments.
PDF62August 12, 2025