Обучение геометрическим представлениям из видео для пространственных интеллектуальных мультимодальных больших языковых моделей

Аннотация

Мультимодальные большие языковые модели (МБЯМ) превосходно справляются с двумерным семантическим пониманием, но им не хватает врождённого трёхмерного восприятия, что приводит к представлениям, неспособным поддерживать геометрическую и пространственную согласованность между кадрами видео. Учитывая нехватку крупномасштабных 3D-данных, мы представляем GeoVR — новую архитектуру, которая обучается геометрическим представлениям, используя исключительно двумерные видеопоследовательности. Этот подход эффективно перестраивает семантическое латентное пространство внутри МБЯМ, чтобы раскрыть пространственный интеллект. Вместо поверхностного смешивания признаков GeoVR преобразует внутренние представления МБЯМ путём дистилляции геометрических знаний из предварительно обученных трёхмерных фундаментальных моделей. Это достигается с помощью стратегии многоцелевого обучения, основанной на четырёх взаимодополняющих геометрических задачах: (1) оценка межкадровых поз камеры для внедрения динамики смены точек обзора, (2) регрессия карт плотной глубины для привязки физических расстояний, (3) предсказание метрического масштабного коэффициента для калибровки в реальном мире и (4) дистилляция многоуровневых 3D-признаков для выравнивания промежуточного пространства признаков. Руководствуясь этими явными физическими и геометрическими ограничениями, внутренние представления модели естественным образом развивают сильное трёхмерное восприятие. Обширные эксперименты на бенчмарках пространственного мышления демонстрируют, что GeoVR достигает передовых результатов, устанавливая новую парадигму наделения фундаментальных моделей пространственным интеллектом.

English

Multimodal Large Language Models (MLLMs) excel at 2D semantic understanding but lack intrinsic 3D awareness, resulting in representations that fail to maintain geometric and spatial consistency across video frames. Given the scarcity of large-scale 3D data, we present GeoVR, a novel framework that learns geometric representations using purely 2D video sequences. This approach effectively restructures the semantic latent space within MLLMs to unlock spatial intelligence. Rather than employing superficial feature mixing, GeoVR reshapes the internal representations of the MLLM by distilling geometry knowledge from pre-trained 3D foundation models. This is accomplished through a multi-objective learning strategy driven by four complementary geometric targets: (1) estimating inter-frame camera poses to embed varying viewpoint dynamics, (2) regressing dense depth maps to anchor physical distances, (3) predicting a metric scale factor for real-world calibration, and (4) distilling multi-scale 3D features to align the intermediate feature space. Guided by these explicit physical and geometric constraints, the model's internal representations naturally develop strong 3D awareness. Extensive experiments on spatial reasoning benchmarks demonstrate that GeoVR achieves state-of-the-art performance, establishing a new paradigm for endowing foundation models with spatial intelligence.