VLM-3R: Vision-Taalmodellen Versterkt met Instructie-Uitgelijnde 3D-Reconstructie

Samenvatting

De snelle vooruitgang van Grote Multimodale Modellen (LMMs) voor 2D-afbeeldingen en video's heeft de motivatie gecreëerd om deze modellen uit te breiden naar het begrijpen van 3D-scènes, met als doel mensachtige visueel-ruimtelijke intelligentie te bereiken. Het bereiken van een diepgaand ruimtelijk begrip dat vergelijkbaar is met menselijke capaciteiten, stelt echter aanzienlijke uitdagingen op het gebied van modelcodering en data-acquisitie. Bestaande methoden zijn vaak afhankelijk van externe dieptesensoren voor geometriecaptatie of gebruiken standaardalgoritmen voor het vooraf construeren van 3D-kaarten, wat hun schaalbaarheid beperkt, vooral bij veelvoorkomende monoculaire video-inputs en voor tijdgevoelige toepassingen. In dit werk introduceren we VLM-3R, een uniform raamwerk voor Vision-Language Models (VLMs) dat 3D Reconstructive instruction tuning integreert. VLM-3R verwerkt monoculaire videoframes door een geometrie-encoder te gebruiken om impliciete 3D-tokens af te leiden die ruimtelijk begrip representeren. Door gebruik te maken van onze Spatial-Visual-View Fusion en meer dan 200K gecureerde 3D reconstructieve instruction tuning vraag-antwoord (QA) paren, aligneert VLM-3R effectief real-world ruimtelijke context met taal-instructies. Dit maakt monoculaire 3D-ruimtelijke ondersteuning en belichaamde redenering mogelijk. Om de evaluatie van temporele redenering te vergemakkelijken, introduceren we de Vision-Spatial-Temporal Intelligence benchmark, met meer dan 138.6K QA-paren over vijf verschillende taken gericht op evoluerende ruimtelijke relaties. Uitgebreide experimenten tonen aan dat ons model, VLM-3R, niet alleen robuuste visueel-ruimtelijke redenering mogelijk maakt, maar ook het begrijpen van temporele 3D-contextveranderingen faciliteert, en uitblinkt in zowel nauwkeurigheid als schaalbaarheid.

English

The rapid advancement of Large Multimodal Models (LMMs) for 2D images and videos has motivated extending these models to understand 3D scenes, aiming for human-like visual-spatial intelligence. Nevertheless, achieving deep spatial understanding comparable to human capabilities poses significant challenges in model encoding and data acquisition. Existing methods frequently depend on external depth sensors for geometry capture or utilize off-the-shelf algorithms for pre-constructing 3D maps, thereby limiting their scalability, especially with prevalent monocular video inputs and for time-sensitive applications. In this work, we introduce VLM-3R, a unified framework for Vision-Language Models (VLMs) that incorporates 3D Reconstructive instruction tuning. VLM-3R processes monocular video frames by employing a geometry encoder to derive implicit 3D tokens that represent spatial understanding. Leveraging our Spatial-Visual-View Fusion and over 200K curated 3D reconstructive instruction tuning question-answer (QA) pairs, VLM-3R effectively aligns real-world spatial context with language instructions. This enables monocular 3D spatial assistance and embodied reasoning. To facilitate the evaluation of temporal reasoning, we introduce the Vision-Spatial-Temporal Intelligence benchmark, featuring over 138.6K QA pairs across five distinct tasks focused on evolving spatial relationships. Extensive experiments demonstrate that our model, VLM-3R, not only facilitates robust visual-spatial reasoning but also enables the understanding of temporal 3D context changes, excelling in both accuracy and scalability.

VLM-3R: Vision-Taalmodellen Versterkt met Instructie-Uitgelijnde 3D-Reconstructie

VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction

Samenvatting

Support