VLM4D : Vers une conscience spatiotemporelle dans les modèles de langage visuel
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models
August 4, 2025
papers.authors: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi
cs.AI
papers.abstract
Les modèles de langage visuel (VLMs) ont démontré des capacités remarquables dans l'intégration du raisonnement linguistique et visuel, mais restent fondamentalement limités dans la compréhension des interactions spatiotemporelles dynamiques. Les humains suivent et raisonnent sans effort sur les mouvements, rotations et changements de perspective des objets - des aptitudes essentielles pour une compréhension robuste du monde réel dynamique, mais notablement absentes dans les VLMs actuels. Dans cet article, nous présentons VLM4D, le premier benchmark spécifiquement conçu pour évaluer les capacités de raisonnement spatiotemporel des VLMs. Notre benchmark comprend des vidéos variées, issues du monde réel et synthétiques, accompagnées de paires question-réponse soigneusement élaborées mettant l'accent sur les mouvements de translation et de rotation, la conscience de la perspective et la continuité du mouvement. À travers des évaluations approfondies des VLMs open-source et propriétaires de pointe, nous identifions des écarts de performance significatifs par rapport aux références humaines, mettant en lumière des lacunes fondamentales dans les modèles existants. Une analyse approfondie révèle que les VLMs peinent particulièrement à intégrer plusieurs indices visuels et à maintenir la cohérence temporelle. Nous explorons également des pistes prometteuses, telles que l'exploitation de la reconstruction de champs de caractéristiques 4D et le fine-tuning supervisé spatiotemporel ciblé, démontrant leur efficacité à améliorer la compréhension spatiotemporelle. Notre travail vise à encourager une exploration plus approfondie pour améliorer l'ancrage spatial et temporel des VLMs, ouvrant la voie à une intelligence visuelle plus performante et fiable pour les environnements dynamiques.
English
Vision language models (VLMs) have shown remarkable capabilities in
integrating linguistic and visual reasoning but remain fundamentally limited in
understanding dynamic spatiotemporal interactions. Humans effortlessly track
and reason about object movements, rotations, and perspective shifts-abilities
essential for robust dynamic real-world understanding yet notably lacking in
current VLMs. In this paper, we introduce VLM4D, the first benchmark
specifically designed to evaluate the spatiotemporal reasoning capabilities of
VLMs. Our benchmark comprises diverse real-world and synthetic videos
accompanied by carefully curated question-answer pairs emphasizing
translational and rotational motions, perspective awareness, and motion
continuity. Through comprehensive evaluations of state-of-the-art open and
closed-source VLMs, we identify significant performance gaps compared to human
baselines, highlighting fundamental deficiencies in existing models. Extensive
analysis reveals that VLMs struggle particularly with integrating multiple
visual cues and maintaining temporal coherence. We further explore promising
directions, such as leveraging 4D feature field reconstruction and targeted
spatiotemporal supervised fine-tuning, demonstrating their effectiveness in
enhancing spatiotemporal comprehension. Our work aims to encourage deeper
exploration into improving VLMs' spatial and temporal grounding, paving the way
towards more capable and reliable visual intelligence for dynamic environments.