Los Modelos Generativos Conocen el Espacio: Liberando los Priores 3D Implícitos para la Comprensión de Escenas
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
March 19, 2026
Autores: Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai
cs.AI
Resumen
Si bien los Modelos de Lenguaje Multimodales a Gran Escala demuestran capacidades semánticas impresionantes, a menudo padecen de ceguera espacial, luchando con el razonamiento geométrico de grano fino y la dinámica física. Las soluciones existentes típicamente dependen de modalidades 3D explícitas o de andamiajes geométricos complejos, los cuales están limitados por la escasez de datos y los desafíos de generalización. En este trabajo, proponemos un cambio de paradigma aprovechando la predisposición espacial implícita dentro de los modelos de generación de video a gran escala. Postulamos que, para sintetizar videos temporalmente coherentes, estos modelos aprenden inherentemente predisposiciones estructurales 3D robustas y leyes físicas. Introducimos VEGA-3D (Video Extracted Generative Awareness), un marco de trabajo plug-and-play que readapta un modelo de difusión de video preentrenado como un Simulador de Mundo Latente. Al extraer características espacio-temporales de niveles intermedios de ruido e integrarlas con representaciones semánticas mediante un mecanismo de fusión adaptativa a nivel de tokens, enriquecemos a los MLLMs con densas claves geométricas sin supervisión 3D explícita. Experimentos exhaustivos en benchmarks de comprensión de escenas 3D, razonamiento espacial y manipulación embodada demuestran que nuestro método supera a los baselines de vanguardia, validando que las predisposiciones generativas proporcionan una base escalable para la comprensión del mundo físico. El código está disponible públicamente en https://github.com/H-EmbodVis/VEGA-3D.
English
While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models. We posit that to synthesize temporally coherent videos, these models inherently learn robust 3D structural priors and physical laws. We introduce VEGA-3D (Video Extracted Generative Awareness), a plug-and-play framework that repurposes a pre-trained video diffusion model as a Latent World Simulator. By extracting spatiotemporal features from intermediate noise levels and integrating them with semantic representations via a token-level adaptive gated fusion mechanism, we enrich MLLMs with dense geometric cues without explicit 3D supervision. Extensive experiments across 3D scene understanding, spatial reasoning, and embodied manipulation benchmarks demonstrate that our method outperforms state-of-the-art baselines, validating that generative priors provide a scalable foundation for physical-world understanding. Code is publicly available at https://github.com/H-EmbodVis/VEGA-3D.