VLM4D: Verso la consapevolezza spazio-temporale nei modelli linguistico-visivi
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models
August 4, 2025
Autori: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi
cs.AI
Abstract
I modelli linguistico-visivi (VLMs) hanno dimostrato capacità notevoli nell'integrare il ragionamento linguistico e visivo, ma rimangono fondamentalmente limitati nella comprensione delle interazioni spaziotemporali dinamiche. Gli esseri umani tracciano e ragionano senza sforzo sui movimenti degli oggetti, sulle rotazioni e sui cambiamenti di prospettiva—abilità essenziali per una comprensione robusta del mondo reale dinamico, ma che mancano in modo evidente negli attuali VLMs. In questo articolo, introduciamo VLM4D, il primo benchmark specificamente progettato per valutare le capacità di ragionamento spaziotemporale dei VLMs. Il nostro benchmark comprende video reali e sintetici di diverso tipo, accompagnati da coppie domanda-risposta accuratamente curate che enfatizzano i movimenti traslazionali e rotazionali, la consapevolezza della prospettiva e la continuità del movimento. Attraverso valutazioni complete dei VLMs open-source e closed-source più avanzati, identifiamo significativi gap di prestazioni rispetto ai benchmark umani, evidenziando carenze fondamentali nei modelli esistenti. Un'analisi approfondita rivela che i VLMs faticano in particolare a integrare molteplici indizi visivi e a mantenere la coerenza temporale. Esploriamo inoltre direzioni promettenti, come l'utilizzo della ricostruzione di campi di caratteristiche 4D e il fine-tuning supervisionato spaziotemporale mirato, dimostrandone l'efficacia nel migliorare la comprensione spaziotemporale. Il nostro lavoro mira a incoraggiare un'esplorazione più profonda per migliorare il grounding spaziale e temporale dei VLMs, aprendo la strada verso un'intelligenza visiva più capace e affidabile per ambienti dinamici.
English
Vision language models (VLMs) have shown remarkable capabilities in
integrating linguistic and visual reasoning but remain fundamentally limited in
understanding dynamic spatiotemporal interactions. Humans effortlessly track
and reason about object movements, rotations, and perspective shifts-abilities
essential for robust dynamic real-world understanding yet notably lacking in
current VLMs. In this paper, we introduce VLM4D, the first benchmark
specifically designed to evaluate the spatiotemporal reasoning capabilities of
VLMs. Our benchmark comprises diverse real-world and synthetic videos
accompanied by carefully curated question-answer pairs emphasizing
translational and rotational motions, perspective awareness, and motion
continuity. Through comprehensive evaluations of state-of-the-art open and
closed-source VLMs, we identify significant performance gaps compared to human
baselines, highlighting fundamental deficiencies in existing models. Extensive
analysis reveals that VLMs struggle particularly with integrating multiple
visual cues and maintaining temporal coherence. We further explore promising
directions, such as leveraging 4D feature field reconstruction and targeted
spatiotemporal supervised fine-tuning, demonstrating their effectiveness in
enhancing spatiotemporal comprehension. Our work aims to encourage deeper
exploration into improving VLMs' spatial and temporal grounding, paving the way
towards more capable and reliable visual intelligence for dynamic environments.