VLM4D : Vers une conscience spatiotemporelle dans les modèles de langage visuel

papers.abstract

Les modèles de langage visuel (VLMs) ont démontré des capacités remarquables dans l'intégration du raisonnement linguistique et visuel, mais restent fondamentalement limités dans la compréhension des interactions spatiotemporelles dynamiques. Les humains suivent et raisonnent sans effort sur les mouvements, rotations et changements de perspective des objets - des aptitudes essentielles pour une compréhension robuste du monde réel dynamique, mais notablement absentes dans les VLMs actuels. Dans cet article, nous présentons VLM4D, le premier benchmark spécifiquement conçu pour évaluer les capacités de raisonnement spatiotemporel des VLMs. Notre benchmark comprend des vidéos variées, issues du monde réel et synthétiques, accompagnées de paires question-réponse soigneusement élaborées mettant l'accent sur les mouvements de translation et de rotation, la conscience de la perspective et la continuité du mouvement. À travers des évaluations approfondies des VLMs open-source et propriétaires de pointe, nous identifions des écarts de performance significatifs par rapport aux références humaines, mettant en lumière des lacunes fondamentales dans les modèles existants. Une analyse approfondie révèle que les VLMs peinent particulièrement à intégrer plusieurs indices visuels et à maintenir la cohérence temporelle. Nous explorons également des pistes prometteuses, telles que l'exploitation de la reconstruction de champs de caractéristiques 4D et le fine-tuning supervisé spatiotemporel ciblé, démontrant leur efficacité à améliorer la compréhension spatiotemporelle. Notre travail vise à encourager une exploration plus approfondie pour améliorer l'ancrage spatial et temporel des VLMs, ouvrant la voie à une intelligence visuelle plus performante et fiable pour les environnements dynamiques.

English

Vision language models (VLMs) have shown remarkable capabilities in integrating linguistic and visual reasoning but remain fundamentally limited in understanding dynamic spatiotemporal interactions. Humans effortlessly track and reason about object movements, rotations, and perspective shifts-abilities essential for robust dynamic real-world understanding yet notably lacking in current VLMs. In this paper, we introduce VLM4D, the first benchmark specifically designed to evaluate the spatiotemporal reasoning capabilities of VLMs. Our benchmark comprises diverse real-world and synthetic videos accompanied by carefully curated question-answer pairs emphasizing translational and rotational motions, perspective awareness, and motion continuity. Through comprehensive evaluations of state-of-the-art open and closed-source VLMs, we identify significant performance gaps compared to human baselines, highlighting fundamental deficiencies in existing models. Extensive analysis reveals that VLMs struggle particularly with integrating multiple visual cues and maintaining temporal coherence. We further explore promising directions, such as leveraging 4D feature field reconstruction and targeted spatiotemporal supervised fine-tuning, demonstrating their effectiveness in enhancing spatiotemporal comprehension. Our work aims to encourage deeper exploration into improving VLMs' spatial and temporal grounding, paving the way towards more capable and reliable visual intelligence for dynamic environments.

VLM4D : Vers une conscience spatiotemporelle dans les modèles de langage visuel

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

papers.abstract

Support