Les modèles de génération connaissent l'espace : Libérer les connaissances 3D implicites pour la compréhension de scènes

Résumé

Si les modèles de langage multimodaux à grande échelle démontrent des capacités sémantiques impressionnantes, ils souffrent souvent d'une cécité spatiale, peinant à effectuer un raisonnement géométrique fin et à appréhender la dynamique physique. Les solutions existantes reposent généralement sur des modalités 3D explicites ou des échafaudages géométriques complexes, qui sont limités par la rareté des données et les défis de généralisation. Dans ce travail, nous proposons un changement de paradigme en exploitant l'a priori spatial implicite contenu dans les modèles de génération de vidéos à grande échelle. Nous postulons que pour synthétiser des vidéos temporellement cohérentes, ces modèles apprennent intrinsèquement des a priori structurels 3D robustes et des lois physiques. Nous présentons VEGA-3D (Video Extracted Generative Awareness), un framework plug-and-play qui réutilise un modèle de diffusion vidéo pré-entraîné en tant que Simulateur de Monde Latent. En extrayant des caractéristiques spatio-temporelles à partir des niveaux de bruit intermédiaires et en les intégrant aux représentations sémantiques via un mécanisme de fusion adaptative au niveau des tokens, nous enrichissons les MLLM avec des indices géométriques denses sans supervision 3D explicite. Des expériences approfondies sur des benchmarks de compréhension de scènes 3D, de raisonnement spatial et de manipulation incarnée démontrent que notre méthode surpasse les approches de l'état de l'art, validant le fait que les a priori génératifs constituent une base évolutive pour la compréhension du monde physique. Le code est disponible publiquement à l'adresse https://github.com/H-EmbodVis/VEGA-3D.

English

While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models. We posit that to synthesize temporally coherent videos, these models inherently learn robust 3D structural priors and physical laws. We introduce VEGA-3D (Video Extracted Generative Awareness), a plug-and-play framework that repurposes a pre-trained video diffusion model as a Latent World Simulator. By extracting spatiotemporal features from intermediate noise levels and integrating them with semantic representations via a token-level adaptive gated fusion mechanism, we enrich MLLMs with dense geometric cues without explicit 3D supervision. Extensive experiments across 3D scene understanding, spatial reasoning, and embodied manipulation benchmarks demonstrate that our method outperforms state-of-the-art baselines, validating that generative priors provide a scalable foundation for physical-world understanding. Code is publicly available at https://github.com/H-EmbodVis/VEGA-3D.

Les modèles de génération connaissent l'espace : Libérer les connaissances 3D implicites pour la compréhension de scènes

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Résumé

Support