Apprentissage de Représentations Géométriques à partir de Vidéos pour des Modèles de Langage Multimodaux de Grande Taille à Intelligence Spatiale

Résumé

Les grands modèles de langage multimodaux (MLLMs) excellent dans la compréhension sémantique 2D mais manquent de conscience 3D intrinsèque, ce qui conduit à des représentations qui ne parviennent pas à maintenir une cohérence géométrique et spatiale entre les trames vidéo. Compte tenu de la rareté des données 3D à grande échelle, nous présentons GeoVR, un nouveau cadre qui apprend des représentations géométriques en utilisant uniquement des séquences vidéo 2D. Cette approche restructure efficacement l'espace latent sémantique au sein des MLLMs pour libérer l'intelligence spatiale. Plutôt que d'utiliser un mélange superficiel de caractéristiques, GeoVR remodèle les représentations internes du MLLM en distillant les connaissances géométriques de modèles de base 3D pré-entraînés. Ceci est accompli grâce à une stratégie d'apprentissage multi-objectifs pilotée par quatre cibles géométriques complémentaires : (1) l'estimation des poses de caméra inter-trames pour intégrer la dynamique des points de vue variables, (2) la régression de cartes de profondeur denses pour ancrer les distances physiques, (3) la prédiction d'un facteur d'échelle métrique pour l'étalonnage dans le monde réel, et (4) la distillation de caractéristiques 3D multi-échelles pour aligner l'espace de caractéristiques intermédiaire. Guidées par ces contraintes physiques et géométriques explicites, les représentations internes du modèle développent naturellement une forte conscience 3D. Des expériences approfondies sur des benchmarks de raisonnement spatial démontrent que GeoVR atteint des performances de pointe, établissant un nouveau paradigme pour doter les modèles de base d'intelligence spatiale.

English

Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, resulting in representations that fail to maintain geometric and spatial consistency across video frames. Given the scarcity of large-scale 3D data, we present GeoVR, a novel framework that learns geometric representations using purely 2D video sequences. This approach effectively restructures the semantic latent space within MLLMs to unlock spatial intelligence. Rather than employing superficial feature mixing, GeoVR reshapes the internal representations of the MLLM by distilling geometry knowledge from pre-trained 3D foundation models. This is accomplished through a multi-objective learning strategy driven by four complementary geometric targets: (1) estimating inter-frame camera poses to embed varying viewpoint dynamics, (2) regressing dense depth maps to anchor physical distances, (3) predicting a metric scale factor for real-world calibration, and (4) distilling multi-scale 3D features to align the intermediate feature space. Guided by these explicit physical and geometric constraints, the model's internal representations naturally develop strong 3D awareness. Extensive experiments on spatial reasoning benchmarks demonstrate that GeoVR achieves state-of-the-art performance, establishing a new paradigm for endowing foundation models with spatial intelligence.