ChatPaper.aiChatPaper

VLM4D: Rumo à Consciência Espaço-Temporal em Modelos de Linguagem Visual

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

August 4, 2025
Autores: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi
cs.AI

Resumo

Os modelos de linguagem visual (VLMs) demonstraram capacidades notáveis na integração de raciocínio linguístico e visual, mas permanecem fundamentalmente limitados na compreensão de interações espaço-temporais dinâmicas. Os seres humanos rastreiam e raciocinam sobre movimentos, rotações e mudanças de perspectiva de objetos com facilidade — habilidades essenciais para uma compreensão robusta do mundo real dinâmico, mas que são notavelmente ausentes nos VLMs atuais. Neste artigo, apresentamos o VLM4D, o primeiro benchmark especificamente projetado para avaliar as capacidades de raciocínio espaço-temporal dos VLMs. Nosso benchmark compreende diversos vídeos do mundo real e sintéticos, acompanhados de pares de perguntas e respostas cuidadosamente elaborados, enfatizando movimentos translacionais e rotacionais, consciência de perspectiva e continuidade de movimento. Por meio de avaliações abrangentes de VLMs de última geração, tanto de código aberto quanto proprietários, identificamos lacunas significativas de desempenho em comparação com baselines humanos, destacando deficiências fundamentais nos modelos existentes. Análises extensas revelam que os VLMs têm dificuldade particular em integrar múltiplos sinais visuais e manter coerência temporal. Exploramos ainda direções promissoras, como a reconstrução de campos de características 4D e o ajuste fino supervisionado espaço-temporal direcionado, demonstrando sua eficácia no aprimoramento da compreensão espaço-temporal. Nosso trabalho visa incentivar uma exploração mais profunda na melhoria da fundamentação espacial e temporal dos VLMs, abrindo caminho para uma inteligência visual mais capaz e confiável em ambientes dinâmicos.
English
Vision language models (VLMs) have shown remarkable capabilities in integrating linguistic and visual reasoning but remain fundamentally limited in understanding dynamic spatiotemporal interactions. Humans effortlessly track and reason about object movements, rotations, and perspective shifts-abilities essential for robust dynamic real-world understanding yet notably lacking in current VLMs. In this paper, we introduce VLM4D, the first benchmark specifically designed to evaluate the spatiotemporal reasoning capabilities of VLMs. Our benchmark comprises diverse real-world and synthetic videos accompanied by carefully curated question-answer pairs emphasizing translational and rotational motions, perspective awareness, and motion continuity. Through comprehensive evaluations of state-of-the-art open and closed-source VLMs, we identify significant performance gaps compared to human baselines, highlighting fundamental deficiencies in existing models. Extensive analysis reveals that VLMs struggle particularly with integrating multiple visual cues and maintaining temporal coherence. We further explore promising directions, such as leveraging 4D feature field reconstruction and targeted spatiotemporal supervised fine-tuning, demonstrating their effectiveness in enhancing spatiotemporal comprehension. Our work aims to encourage deeper exploration into improving VLMs' spatial and temporal grounding, paving the way towards more capable and reliable visual intelligence for dynamic environments.
PDF62August 12, 2025