Генеративные модели знают пространство: раскрытие скрытых 3D-приоров для понимания сцен
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
March 19, 2026
Авторы: Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai
cs.AI
Аннотация
Хотя мультимодальные большие языковые модели демонстрируют впечатляющие семантические возможности, они часто страдают от пространственной «слепоты», испытывая трудности с мелкодетальным геометрическим reasoning и пониманием физической динамики. Существующие решения обычно полагаются на явные 3D-модальности или сложные геометрические каркасы, которые ограничены дефицитом данных и проблемами обобщения. В данной работе мы предлагаем смену парадигмы, используя неявное пространственное предзнание, заложенное в моделях генерации видео в крупном масштабе. Мы предполагаем, что для синтеза временно-согласованных видео эти модели неявно изучают устойчивые структурные priors 3D и физические законы. Мы представляем VEGA-3D (Video Extracted Generative Awareness) — модульную плагин-фреймворк, который перепрофилирует предварительно обученную диффузионную модель видео в Latent World Simulator. Извлекая пространственно-временные признаки из промежуточных уровней шума и интегрируя их с семантическими представлениями посредством механизма адаптивного токен-уровневого gated fusion, мы обогащаем MLLM плотными геометрическими подсказками без явного 3D-надзора. Многочисленные эксперименты на задачах понимания 3D-сцен, пространственного reasoning и benchmarks манипуляции в embodied-среде показывают, что наш метод превосходит современные базовые подходы, подтверждая, что генеративные priors обеспечивают масштабируемую основу для понимания физического мира. Код доступен по адресу https://github.com/H-EmbodVis/VEGA-3D.
English
While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models. We posit that to synthesize temporally coherent videos, these models inherently learn robust 3D structural priors and physical laws. We introduce VEGA-3D (Video Extracted Generative Awareness), a plug-and-play framework that repurposes a pre-trained video diffusion model as a Latent World Simulator. By extracting spatiotemporal features from intermediate noise levels and integrating them with semantic representations via a token-level adaptive gated fusion mechanism, we enrich MLLMs with dense geometric cues without explicit 3D supervision. Extensive experiments across 3D scene understanding, spatial reasoning, and embodied manipulation benchmarks demonstrate that our method outperforms state-of-the-art baselines, validating that generative priors provide a scalable foundation for physical-world understanding. Code is publicly available at https://github.com/H-EmbodVis/VEGA-3D.