VLM4D: Verso la consapevolezza spazio-temporale nei modelli linguistico-visivi

Abstract

I modelli linguistico-visivi (VLMs) hanno dimostrato capacità notevoli nell'integrare il ragionamento linguistico e visivo, ma rimangono fondamentalmente limitati nella comprensione delle interazioni spaziotemporali dinamiche. Gli esseri umani tracciano e ragionano senza sforzo sui movimenti degli oggetti, sulle rotazioni e sui cambiamenti di prospettiva—abilità essenziali per una comprensione robusta del mondo reale dinamico, ma che mancano in modo evidente negli attuali VLMs. In questo articolo, introduciamo VLM4D, il primo benchmark specificamente progettato per valutare le capacità di ragionamento spaziotemporale dei VLMs. Il nostro benchmark comprende video reali e sintetici di diverso tipo, accompagnati da coppie domanda-risposta accuratamente curate che enfatizzano i movimenti traslazionali e rotazionali, la consapevolezza della prospettiva e la continuità del movimento. Attraverso valutazioni complete dei VLMs open-source e closed-source più avanzati, identifiamo significativi gap di prestazioni rispetto ai benchmark umani, evidenziando carenze fondamentali nei modelli esistenti. Un'analisi approfondita rivela che i VLMs faticano in particolare a integrare molteplici indizi visivi e a mantenere la coerenza temporale. Esploriamo inoltre direzioni promettenti, come l'utilizzo della ricostruzione di campi di caratteristiche 4D e il fine-tuning supervisionato spaziotemporale mirato, dimostrandone l'efficacia nel migliorare la comprensione spaziotemporale. Il nostro lavoro mira a incoraggiare un'esplorazione più profonda per migliorare il grounding spaziale e temporale dei VLMs, aprendo la strada verso un'intelligenza visiva più capace e affidabile per ambienti dinamici.

English

Vision language models (VLMs) have shown remarkable capabilities in integrating linguistic and visual reasoning but remain fundamentally limited in understanding dynamic spatiotemporal interactions. Humans effortlessly track and reason about object movements, rotations, and perspective shifts-abilities essential for robust dynamic real-world understanding yet notably lacking in current VLMs. In this paper, we introduce VLM4D, the first benchmark specifically designed to evaluate the spatiotemporal reasoning capabilities of VLMs. Our benchmark comprises diverse real-world and synthetic videos accompanied by carefully curated question-answer pairs emphasizing translational and rotational motions, perspective awareness, and motion continuity. Through comprehensive evaluations of state-of-the-art open and closed-source VLMs, we identify significant performance gaps compared to human baselines, highlighting fundamental deficiencies in existing models. Extensive analysis reveals that VLMs struggle particularly with integrating multiple visual cues and maintaining temporal coherence. We further explore promising directions, such as leveraging 4D feature field reconstruction and targeted spatiotemporal supervised fine-tuning, demonstrating their effectiveness in enhancing spatiotemporal comprehension. Our work aims to encourage deeper exploration into improving VLMs' spatial and temporal grounding, paving the way towards more capable and reliable visual intelligence for dynamic environments.

VLM4D: Verso la consapevolezza spazio-temporale nei modelli linguistico-visivi

VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

Abstract

Support