Aprendizagem de Representações Geométricas a partir de Vídeos para Grandes Modelos de Linguagem Multimodais Inteligentes Espaciais

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) destacam-se na compreensão semântica 2D, mas carecem de percepção tridimensional intrínseca, resultando em representações que não mantêm consistência geométrica e espacial entre quadros de vídeo. Diante da escassez de dados 3D em larga escala, apresentamos o GeoVR, uma nova estrutura que aprende representações geométricas usando apenas sequências de vídeo 2D. Essa abordagem reestrutura efetivamente o espaço latente semântico dentro dos MLLMs para desbloquear inteligência espacial. Em vez de empregar mistura superficial de características, o GeoVR remodela as representações internas do MLLM ao destilar conhecimento geométrico de modelos de base 3D pré-treinados. Isso é realizado por meio de uma estratégia de aprendizado multiobjetivo orientada por quatro metas geométricas complementares: (1) estimar poses de câmera entre quadros para incorporar dinâmicas de ponto de vista variáveis, (2) regredir mapas de profundidade densos para ancorar distâncias físicas, (3) prever um fator de escala métrica para calibração no mundo real e (4) destilar características 3D multiescala para alinhar o espaço de características intermediário. Guiadas por essas restrições físicas e geométricas explícitas, as representações internas do modelo desenvolvem naturalmente uma forte percepção 3D. Experimentos extensivos em benchmarks de raciocínio espacial demonstram que o GeoVR alcança desempenho de ponta, estabelecendo um novo paradigma para dotar modelos de base de inteligência espacial.

English

Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, resulting in representations that fail to maintain geometric and spatial consistency across video frames. Given the scarcity of large-scale 3D data, we present GeoVR, a novel framework that learns geometric representations using purely 2D video sequences. This approach effectively restructures the semantic latent space within MLLMs to unlock spatial intelligence. Rather than employing superficial feature mixing, GeoVR reshapes the internal representations of the MLLM by distilling geometry knowledge from pre-trained 3D foundation models. This is accomplished through a multi-objective learning strategy driven by four complementary geometric targets: (1) estimating inter-frame camera poses to embed varying viewpoint dynamics, (2) regressing dense depth maps to anchor physical distances, (3) predicting a metric scale factor for real-world calibration, and (4) distilling multi-scale 3D features to align the intermediate feature space. Guided by these explicit physical and geometric constraints, the model's internal representations naturally develop strong 3D awareness. Extensive experiments on spatial reasoning benchmarks demonstrate that GeoVR achieves state-of-the-art performance, establishing a new paradigm for endowing foundation models with spatial intelligence.