Generatieve Modellen Begrijpen Ruimte: Het Ontketenen van Impliciete 3D-Priors voor Scènebegrip
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding
March 19, 2026
Auteurs: Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai
cs.AI
Samenvatting
Hoewel multimodale grote taalmodellen indrukwekkende semantische capaciteiten vertonen, lijden ze vaak aan ruimtelijke blindheid en hebben ze moeite met fijnmazige geometrische redenering en fysieke dynamiek. Bestaande oplossingen zijn typisch afhankelijk van expliciete 3D-modaliteiten of complexe geometrische ondersteuningsstructuren, die worden beperkt door dataschaarste en generalisatie-uitdagingen. In dit werk stellen we een paradigmaverschuiving voor door gebruik te maken van het impliciete ruimtelijke voorafgaande inzicht in grootschalige videogeneratiemodellen. Wij veronderstellen dat deze modellen, om temporeel samenhangende video's te synthetiseren, inherent robuuste 3D-structurele voorafgaande kennis en fysieke wetten leren. Wij introduceren VEGA-3D (Video Extracted Generative Awareness), een plug-and-play raamwerk dat een vooraf getraind videodiffusiemodel hergebruikt als een Latente Wereldsimulator. Door spatiotemporele kenmerken te extraheren uit tussenliggende ruisniveaus en deze te integreren met semantische representaties via een token-level adaptief gegateerd fusiemechanisme, verrijken we MLLM's met dichte geometrische aanwijzingen zonder expliciete 3D-supervisie. Uitgebreide experimenten op het gebied van 3D-scènebegrip, ruimtelijk redeneren en belichaamde manipulatiebenchmarks tonen aan dat onze methode state-of-the-art-baselines overtreft, wat valideert dat generatieve voorafgaande kennis een schaalbare basis biedt voor het begrijpen van de fysieke wereld. Code is openbaar beschikbaar op https://github.com/H-EmbodVis/VEGA-3D.
English
While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models. We posit that to synthesize temporally coherent videos, these models inherently learn robust 3D structural priors and physical laws. We introduce VEGA-3D (Video Extracted Generative Awareness), a plug-and-play framework that repurposes a pre-trained video diffusion model as a Latent World Simulator. By extracting spatiotemporal features from intermediate noise levels and integrating them with semantic representations via a token-level adaptive gated fusion mechanism, we enrich MLLMs with dense geometric cues without explicit 3D supervision. Extensive experiments across 3D scene understanding, spatial reasoning, and embodied manipulation benchmarks demonstrate that our method outperforms state-of-the-art baselines, validating that generative priors provide a scalable foundation for physical-world understanding. Code is publicly available at https://github.com/H-EmbodVis/VEGA-3D.