VLM-3R: Modelli Visione-Linguaggio Potenziati con Ricostruzione 3D Allineata alle Istruzioni
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction
May 26, 2025
Autori: Zhiwen Fan, Jian Zhang, Renjie Li, Junge Zhang, Runjin Chen, Hezhen Hu, Kevin Wang, Huaizhi Qu, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Tianlong Chen, Jiachen Li, Zhengzhong Tu, Zhangyang Wang, Rakesh Ranjan
cs.AI
Abstract
Il rapido progresso dei Modelli Multimodali di Grande Dimensione (LMMs) per immagini e video 2D ha motivato l'estensione di questi modelli alla comprensione di scene 3D, con l'obiettivo di raggiungere un'intelligenza visivo-spaziale simile a quella umana. Tuttavia, ottenere una comprensione spaziale profonda paragonabile alle capacità umane presenta sfide significative nella codifica del modello e nell'acquisizione dei dati. I metodi esistenti spesso dipendono da sensori di profondità esterni per la cattura della geometria o utilizzano algoritmi predefiniti per la pre-costruzione di mappe 3D, limitando così la loro scalabilità, specialmente con input di video monoculari prevalenti e per applicazioni sensibili al tempo. In questo lavoro, introduciamo VLM-3R, un framework unificato per Modelli Visione-Linguaggio (VLMs) che incorpora la sintonizzazione di istruzioni ricostruttive 3D. VLM-3R elabora fotogrammi di video monoculari impiegando un codificatore geometrico per derivare token 3D impliciti che rappresentano la comprensione spaziale. Sfruttando la nostra Fusione Spaziale-Visuale-Visuale e oltre 200K coppie di domande-risposte (QA) curate per la sintonizzazione di istruzioni ricostruttive 3D, VLM-3R allinea efficacemente il contesto spaziale del mondo reale con le istruzioni linguistiche. Ciò consente un'assistenza spaziale 3D monoculare e un ragionamento incarnato. Per facilitare la valutazione del ragionamento temporale, introduciamo il benchmark Visione-Spaziale-Temporale, che presenta oltre 138.6K coppie QA in cinque distinti compiti focalizzati su relazioni spaziali in evoluzione. Esperimenti estensivi dimostrano che il nostro modello, VLM-3R, non solo facilita un robusto ragionamento visivo-spaziale, ma consente anche la comprensione dei cambiamenti contestuali 3D temporali, eccellendo sia in accuratezza che in scalabilità.
English
The rapid advancement of Large Multimodal Models (LMMs) for 2D images and
videos has motivated extending these models to understand 3D scenes, aiming for
human-like visual-spatial intelligence. Nevertheless, achieving deep spatial
understanding comparable to human capabilities poses significant challenges in
model encoding and data acquisition. Existing methods frequently depend on
external depth sensors for geometry capture or utilize off-the-shelf algorithms
for pre-constructing 3D maps, thereby limiting their scalability, especially
with prevalent monocular video inputs and for time-sensitive applications. In
this work, we introduce VLM-3R, a unified framework for Vision-Language Models
(VLMs) that incorporates 3D Reconstructive instruction tuning. VLM-3R processes
monocular video frames by employing a geometry encoder to derive implicit 3D
tokens that represent spatial understanding. Leveraging our Spatial-Visual-View
Fusion and over 200K curated 3D reconstructive instruction tuning
question-answer (QA) pairs, VLM-3R effectively aligns real-world spatial
context with language instructions. This enables monocular 3D spatial
assistance and embodied reasoning. To facilitate the evaluation of temporal
reasoning, we introduce the Vision-Spatial-Temporal Intelligence benchmark,
featuring over 138.6K QA pairs across five distinct tasks focused on evolving
spatial relationships. Extensive experiments demonstrate that our model,
VLM-3R, not only facilitates robust visual-spatial reasoning but also enables
the understanding of temporal 3D context changes, excelling in both accuracy
and scalability.