VLM4D: Auf dem Weg zur raumzeitlichen Wahrnehmung in visuell-sprachlichen Modellen
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models
August 4, 2025
papers.authors: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi
cs.AI
papers.abstract
Vision Language Models (VLMs) haben bemerkenswerte Fähigkeiten bei der Integration von linguistischem und visuellem Denken gezeigt, bleiben jedoch grundlegend eingeschränkt im Verständnis dynamischer raumzeitlicher Interaktionen. Menschen verfolgen und analysieren mühelos Objektbewegungen, Rotationen und Perspektivwechsel – Fähigkeiten, die für ein robustes Verständnis dynamischer realer Umgebungen entscheidend sind, aber in aktuellen VLMs auffällig fehlen. In diesem Artikel stellen wir VLM4D vor, den ersten speziell entwickelten Benchmark zur Bewertung der raumzeitlichen Denkfähigkeiten von VLMs. Unser Benchmark umfasst diverse reale und synthetische Videos, die von sorgfältig kuratierten Frage-Antwort-Paaren begleitet werden, die translatorische und rotatorische Bewegungen, Perspektivbewusstsein und Bewegungsfortsetzung betonen. Durch umfassende Bewertungen von state-of-the-art Open- und Closed-Source-VLMs identifizieren wir erhebliche Leistungslücken im Vergleich zu menschlichen Baselines, die grundlegende Defizite in bestehenden Modellen aufzeigen. Eine umfangreiche Analyse zeigt, dass VLMs insbesondere Schwierigkeiten haben, multiple visuelle Hinweise zu integrieren und zeitliche Kohärenz aufrechtzuerhalten. Wir untersuchen weiterhin vielversprechende Ansätze, wie die Nutzung von 4D-Feature-Field-Rekonstruktion und gezieltes raumzeitlich überwachtes Fine-Tuning, und demonstrieren deren Wirksamkeit bei der Verbesserung des raumzeitlichen Verständnisses. Unsere Arbeit zielt darauf ab, eine vertiefte Erforschung der Verbesserung der räumlichen und zeitlichen Verankerung von VLMs zu fördern und den Weg zu einer leistungsfähigeren und zuverlässigeren visuellen Intelligenz für dynamische Umgebungen zu ebnen.
English
Vision language models (VLMs) have shown remarkable capabilities in
integrating linguistic and visual reasoning but remain fundamentally limited in
understanding dynamic spatiotemporal interactions. Humans effortlessly track
and reason about object movements, rotations, and perspective shifts-abilities
essential for robust dynamic real-world understanding yet notably lacking in
current VLMs. In this paper, we introduce VLM4D, the first benchmark
specifically designed to evaluate the spatiotemporal reasoning capabilities of
VLMs. Our benchmark comprises diverse real-world and synthetic videos
accompanied by carefully curated question-answer pairs emphasizing
translational and rotational motions, perspective awareness, and motion
continuity. Through comprehensive evaluations of state-of-the-art open and
closed-source VLMs, we identify significant performance gaps compared to human
baselines, highlighting fundamental deficiencies in existing models. Extensive
analysis reveals that VLMs struggle particularly with integrating multiple
visual cues and maintaining temporal coherence. We further explore promising
directions, such as leveraging 4D feature field reconstruction and targeted
spatiotemporal supervised fine-tuning, demonstrating their effectiveness in
enhancing spatiotemporal comprehension. Our work aims to encourage deeper
exploration into improving VLMs' spatial and temporal grounding, paving the way
towards more capable and reliable visual intelligence for dynamic environments.