Het leren van geometrische representaties uit video's voor ruimtelijk intelligente multimodale grote taalmodellen

Samenvatting

Multimodale Grote Taalmodellen (MLLM's) blinken uit in 2D-semantisch begrip, maar missen intrinsiek 3D-bewustzijn, wat resulteert in representaties die geen geometrische en ruimtelijke consistentie over videoframes behouden. Gezien de schaarste aan grootschalige 3D-gegevens presenteren wij GeoVR, een nieuw raamwerk dat geometrische representaties leert met behulp van uitsluitend 2D-videosequenties. Deze aanpak herstructureert effectief de semantische latentieruimte binnen MLLM's om ruimtelijke intelligentie te ontsluiten. In plaats van oppervlakkige kenmerkmenging te gebruiken, hervormt GeoVR de interne representaties van het MLLM door geometriekennis te destilleren uit voorgetrainde 3D-fundamentmodellen. Dit wordt bereikt via een multi-objectief leerstrategie, aangedreven door vier complementaire geometrische doelen: (1) het schatten van interframe-cameraposen om variërende gezichtspuntdynamieken in te bedden, (2) het regresseren van dichte dieptekaarten om fysieke afstanden te verankeren, (3) het voorspellen van een metrische schaalfactor voor realistische kalibratie, en (4) het destilleren van multischaal 3D-kenmerken om de tussenliggende kenmerkruimte uit te lijnen. Geleid door deze expliciete fysieke en geometrische beperkingen ontwikkelen de interne representaties van het model op natuurlijke wijze een sterk 3D-bewustzijn. Uitgebreide experimenten op ruimtelijk redeneerbenchmarks tonen aan dat GeoVR state-of-the-art prestaties levert en een nieuw paradigma vestigt voor het uitrusten van fundamentmodellen met ruimtelijke intelligentie.

English

Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, resulting in representations that fail to maintain geometric and spatial consistency across video frames. Given the scarcity of large-scale 3D data, we present GeoVR, a novel framework that learns geometric representations using purely 2D video sequences. This approach effectively restructures the semantic latent space within MLLMs to unlock spatial intelligence. Rather than employing superficial feature mixing, GeoVR reshapes the internal representations of the MLLM by distilling geometry knowledge from pre-trained 3D foundation models. This is accomplished through a multi-objective learning strategy driven by four complementary geometric targets: (1) estimating inter-frame camera poses to embed varying viewpoint dynamics, (2) regressing dense depth maps to anchor physical distances, (3) predicting a metric scale factor for real-world calibration, and (4) distilling multi-scale 3D features to align the intermediate feature space. Guided by these explicit physical and geometric constraints, the model's internal representations naturally develop strong 3D awareness. Extensive experiments on spatial reasoning benchmarks demonstrate that GeoVR achieves state-of-the-art performance, establishing a new paradigm for endowing foundation models with spatial intelligence.