Lernen geometrischer Repräsentationen aus Videos für räumlich intelligente multimodale große Sprachmodelle

Zusammenfassung

Multimodale Large Language Models (MLLMs) zeichnen sich durch 2D-semantisches Verständnis aus, ihnen fehlt jedoch ein intrinsisches 3D-Bewusstsein, sodass ihre Repräsentationen keine geometrische und räumliche Konsistenz über Videobilder hinweg aufrechterhalten können. Angesichts des Mangels an großflächigen 3D-Daten präsentieren wir GeoVR, ein neuartiges Framework, das geometrische Repräsentationen allein aus 2D-Videosequenzen lernt. Dieser Ansatz restrukturiert effektiv den semantischen latenten Raum in MLLMs, um räumliche Intelligenz freizusetzen. Anstatt oberflächliche Merkmalsmischung einzusetzen, formt GeoVR die internen Repräsentationen des MLLM um, indem Geometriewissen aus vortrainierten 3D-Grundlagenmodellen destilliert wird. Dies wird durch eine Multi-Objective-Lernstrategie erreicht, die von vier komplementären geometrischen Zielen angetrieben wird: (1) Schätzung von Kameraposen zwischen Bildern zur Einbettung wechselnder Blickwinkeldynamiken, (2) Regression dichter Tiefenkarten zur Verankerung physikalischer Distanzen, (3) Vorhersage eines metrischen Skalierungsfaktors für die Kalibrierung in der realen Welt und (4) Destillation mehrskaliger 3D-Merkmale zur Ausrichtung des Zwischenmerkmalsraums. Unter der Leitung dieser expliziten physikalischen und geometrischen Einschränkungen entwickeln die internen Repräsentationen des Modells auf natürliche Weise ein starkes 3D-Bewusstsein. Umfangreiche Experimente mit Benchmarks zum räumlichen Denken zeigen, dass GeoVR eine hochmoderne Leistung erzielt und ein neues Paradigma zur Ausstattung von Grundlagenmodellen mit räumlicher Intelligenz etabliert.

English

Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, resulting in representations that fail to maintain geometric and spatial consistency across video frames. Given the scarcity of large-scale 3D data, we present GeoVR, a novel framework that learns geometric representations using purely 2D video sequences. This approach effectively restructures the semantic latent space within MLLMs to unlock spatial intelligence. Rather than employing superficial feature mixing, GeoVR reshapes the internal representations of the MLLM by distilling geometry knowledge from pre-trained 3D foundation models. This is accomplished through a multi-objective learning strategy driven by four complementary geometric targets: (1) estimating inter-frame camera poses to embed varying viewpoint dynamics, (2) regressing dense depth maps to anchor physical distances, (3) predicting a metric scale factor for real-world calibration, and (4) distilling multi-scale 3D features to align the intermediate feature space. Guided by these explicit physical and geometric constraints, the model's internal representations naturally develop strong 3D awareness. Extensive experiments on spatial reasoning benchmarks demonstrate that GeoVR achieves state-of-the-art performance, establishing a new paradigm for endowing foundation models with spatial intelligence.