VLM4D: Op weg naar ruimtelijk-temporeel bewustzijn in visuele taalmodelle
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models
August 4, 2025
Auteurs: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi
cs.AI
Samenvatting
Vision language models (VLMs) hebben opmerkelijke capaciteiten getoond in het integreren van linguïstisch en visueel redeneren, maar blijven fundamenteel beperkt in het begrijpen van dynamische spatiotemporele interacties. Mensen volgen en redeneren moeiteloos over objectbewegingen, rotaties en perspectiefverschuivingen – vaardigheden die essentieel zijn voor een robuust begrip van de dynamische echte wereld, maar die opvallend ontbreken in huidige VLMs. In dit artikel introduceren we VLM4D, de eerste benchmark die specifiek is ontworpen om de spatiotemporele redeneervaardigheden van VLMs te evalueren. Onze benchmark bestaat uit diverse real-world en synthetische video’s, vergezeld van zorgvuldig samengestelde vraag-antwoordparen die de nadruk leggen op translationele en rotationele bewegingen, perspectiefbewustzijn en bewegingscontinuïteit. Door uitgebreide evaluaties van state-of-the-art open en closed-source VLMs identificeren we significante prestatiekloof ten opzichte van menselijke baselines, wat fundamentele tekortkomingen in bestaande modellen benadrukt. Uitgebreide analyse toont aan dat VLMs vooral moeite hebben met het integreren van meerdere visuele aanwijzingen en het behouden van temporele samenhang. We verkennen verder veelbelovende richtingen, zoals het benutten van 4D feature field reconstructie en gerichte spatiotemporele supervised fine-tuning, en demonstreren hun effectiviteit in het verbeteren van spatiotemporeel begrip. Ons werk heeft als doel diepere verkenning aan te moedigen naar het verbeteren van de ruimtelijke en temporele verankering van VLMs, om zo de weg te effenen naar capabelere en betrouwbaardere visuele intelligentie voor dynamische omgevingen.
English
Vision language models (VLMs) have shown remarkable capabilities in
integrating linguistic and visual reasoning but remain fundamentally limited in
understanding dynamic spatiotemporal interactions. Humans effortlessly track
and reason about object movements, rotations, and perspective shifts-abilities
essential for robust dynamic real-world understanding yet notably lacking in
current VLMs. In this paper, we introduce VLM4D, the first benchmark
specifically designed to evaluate the spatiotemporal reasoning capabilities of
VLMs. Our benchmark comprises diverse real-world and synthetic videos
accompanied by carefully curated question-answer pairs emphasizing
translational and rotational motions, perspective awareness, and motion
continuity. Through comprehensive evaluations of state-of-the-art open and
closed-source VLMs, we identify significant performance gaps compared to human
baselines, highlighting fundamental deficiencies in existing models. Extensive
analysis reveals that VLMs struggle particularly with integrating multiple
visual cues and maintaining temporal coherence. We further explore promising
directions, such as leveraging 4D feature field reconstruction and targeted
spatiotemporal supervised fine-tuning, demonstrating their effectiveness in
enhancing spatiotemporal comprehension. Our work aims to encourage deeper
exploration into improving VLMs' spatial and temporal grounding, paving the way
towards more capable and reliable visual intelligence for dynamic environments.