Aprendizaje de representaciones geométricas a partir de videos para modelos de lenguaje grandes multimodales inteligentes espaciales

Resumen

Los Modelos de Lenguaje Grande Multimodales (MLLMs) destacan en la comprensión semántica 2D, pero carecen de conciencia 3D intrínseca, lo que resulta en representaciones que no logran mantener la consistencia geométrica y espacial a lo largo de los cuadros de video. Dada la escasez de datos 3D a gran escala, presentamos GeoVR, un marco novedoso que aprende representaciones geométricas utilizando únicamente secuencias de video 2D. Este enfoque reestructura eficazmente el espacio latente semántico dentro de los MLLMs para desbloquear inteligencia espacial. En lugar de emplear una mezcla superficial de características, GeoVR reconfigura las representaciones internas del MLLM mediante la destilación de conocimiento geométrico a partir de modelos base 3D preentrenados. Esto se logra a través de una estrategia de aprendizaje multiobjetivo impulsada por cuatro objetivos geométricos complementarios: (1) estimar las poses de cámara entre cuadros para incorporar dinámicas de punto de vista variable, (2) realizar regresión de mapas de profundidad densos para anclar distancias físicas, (3) predecir un factor de escala métrica para la calibración del mundo real y (4) destilar características 3D multiescala para alinear el espacio de características intermedio. Guiadas por estas restricciones físicas y geométricas explícitas, las representaciones internas del modelo desarrollan naturalmente una fuerte conciencia 3D. Experimentos exhaustivos en puntos de referencia de razonamiento espacial demuestran que GeoVR alcanza un rendimiento de vanguardia, estableciendo un nuevo paradigma para dotar de inteligencia espacial a los modelos base.

English

Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, resulting in representations that fail to maintain geometric and spatial consistency across video frames. Given the scarcity of large-scale 3D data, we present GeoVR, a novel framework that learns geometric representations using purely 2D video sequences. This approach effectively restructures the semantic latent space within MLLMs to unlock spatial intelligence. Rather than employing superficial feature mixing, GeoVR reshapes the internal representations of the MLLM by distilling geometry knowledge from pre-trained 3D foundation models. This is accomplished through a multi-objective learning strategy driven by four complementary geometric targets: (1) estimating inter-frame camera poses to embed varying viewpoint dynamics, (2) regressing dense depth maps to anchor physical distances, (3) predicting a metric scale factor for real-world calibration, and (4) distilling multi-scale 3D features to align the intermediate feature space. Guided by these explicit physical and geometric constraints, the model's internal representations naturally develop strong 3D awareness. Extensive experiments on spatial reasoning benchmarks demonstrate that GeoVR achieves state-of-the-art performance, establishing a new paradigm for endowing foundation models with spatial intelligence.