VLM-3R: Vision-Taalmodellen Versterkt met Instructie-Uitgelijnde 3D-Reconstructie
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction
May 26, 2025
Auteurs: Zhiwen Fan, Jian Zhang, Renjie Li, Junge Zhang, Runjin Chen, Hezhen Hu, Kevin Wang, Huaizhi Qu, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Tianlong Chen, Jiachen Li, Zhengzhong Tu, Zhangyang Wang, Rakesh Ranjan
cs.AI
Samenvatting
De snelle vooruitgang van Grote Multimodale Modellen (LMMs) voor 2D-afbeeldingen en video's heeft de motivatie gecreëerd om deze modellen uit te breiden naar het begrijpen van 3D-scènes, met als doel mensachtige visueel-ruimtelijke intelligentie te bereiken. Het bereiken van een diepgaand ruimtelijk begrip dat vergelijkbaar is met menselijke capaciteiten, stelt echter aanzienlijke uitdagingen op het gebied van modelcodering en data-acquisitie. Bestaande methoden zijn vaak afhankelijk van externe dieptesensoren voor geometriecaptatie of gebruiken standaardalgoritmen voor het vooraf construeren van 3D-kaarten, wat hun schaalbaarheid beperkt, vooral bij veelvoorkomende monoculaire video-inputs en voor tijdgevoelige toepassingen. In dit werk introduceren we VLM-3R, een uniform raamwerk voor Vision-Language Models (VLMs) dat 3D Reconstructive instruction tuning integreert. VLM-3R verwerkt monoculaire videoframes door een geometrie-encoder te gebruiken om impliciete 3D-tokens af te leiden die ruimtelijk begrip representeren. Door gebruik te maken van onze Spatial-Visual-View Fusion en meer dan 200K gecureerde 3D reconstructieve instruction tuning vraag-antwoord (QA) paren, aligneert VLM-3R effectief real-world ruimtelijke context met taal-instructies. Dit maakt monoculaire 3D-ruimtelijke ondersteuning en belichaamde redenering mogelijk. Om de evaluatie van temporele redenering te vergemakkelijken, introduceren we de Vision-Spatial-Temporal Intelligence benchmark, met meer dan 138.6K QA-paren over vijf verschillende taken gericht op evoluerende ruimtelijke relaties. Uitgebreide experimenten tonen aan dat ons model, VLM-3R, niet alleen robuuste visueel-ruimtelijke redenering mogelijk maakt, maar ook het begrijpen van temporele 3D-contextveranderingen faciliteert, en uitblinkt in zowel nauwkeurigheid als schaalbaarheid.
English
The rapid advancement of Large Multimodal Models (LMMs) for 2D images and
videos has motivated extending these models to understand 3D scenes, aiming for
human-like visual-spatial intelligence. Nevertheless, achieving deep spatial
understanding comparable to human capabilities poses significant challenges in
model encoding and data acquisition. Existing methods frequently depend on
external depth sensors for geometry capture or utilize off-the-shelf algorithms
for pre-constructing 3D maps, thereby limiting their scalability, especially
with prevalent monocular video inputs and for time-sensitive applications. In
this work, we introduce VLM-3R, a unified framework for Vision-Language Models
(VLMs) that incorporates 3D Reconstructive instruction tuning. VLM-3R processes
monocular video frames by employing a geometry encoder to derive implicit 3D
tokens that represent spatial understanding. Leveraging our Spatial-Visual-View
Fusion and over 200K curated 3D reconstructive instruction tuning
question-answer (QA) pairs, VLM-3R effectively aligns real-world spatial
context with language instructions. This enables monocular 3D spatial
assistance and embodied reasoning. To facilitate the evaluation of temporal
reasoning, we introduce the Vision-Spatial-Temporal Intelligence benchmark,
featuring over 138.6K QA pairs across five distinct tasks focused on evolving
spatial relationships. Extensive experiments demonstrate that our model,
VLM-3R, not only facilitates robust visual-spatial reasoning but also enables
the understanding of temporal 3D context changes, excelling in both accuracy
and scalability.