I modelli generativi conoscono lo spazio: sfruttare i prior 3D impliciti per la comprensione delle scene

Abstract

Sebbene i Modelli Linguistici Multimodali di Grandi Dimensioni dimostrino impressionanti capacità semantiche, spesso soffrono di cecità spaziale, in difficoltà con ragionamenti geometrici di fine granularità e dinamiche fisiche. Le soluzioni esistenti tipicamente si basano su modalità 3D esplicite o su complesse impalcature geometriche, che sono limitate dalla scarsità di dati e da sfide di generalizzazione. In questo lavoro, proponiamo un cambio di paradigma sfruttando il priore spaziale implicito all'interno di modelli generativi di video su larga scala. Postuliamo che, per sintetizzare video temporalmente coerenti, questi modelli apprendano intrinsecamente robusti priori strutturali 3D e leggi fisiche. Introduciamo VEGA-3D (Video Extracted Generative Awareness), un framework plug-and-play che riutilizza un modello di diffusione video pre-addestrato come Simulatore di Mondi Latenti. Estraendo caratteristiche spaziotemporali da livelli di rumore intermedi e integrandole con rappresentazioni semantiche tramite un meccanismo di fusione adattiva a livello di token, arricchiamo i MLLM con densi indizi geometrici senza una supervisione 3D esplicita. Esperimenti estesi su benchmark di comprensione di scene 3D, ragionamento spaziale e manipolazione embodied dimostrano che il nostro metodo supera i baseline state-of-the-art, validando il fatto che i priori generativi forniscono una base scalabile per la comprensione del mondo fisico. Il codice è pubblicamente disponibile all'indirizzo https://github.com/H-EmbodVis/VEGA-3D.

English

While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models. We posit that to synthesize temporally coherent videos, these models inherently learn robust 3D structural priors and physical laws. We introduce VEGA-3D (Video Extracted Generative Awareness), a plug-and-play framework that repurposes a pre-trained video diffusion model as a Latent World Simulator. By extracting spatiotemporal features from intermediate noise levels and integrating them with semantic representations via a token-level adaptive gated fusion mechanism, we enrich MLLMs with dense geometric cues without explicit 3D supervision. Extensive experiments across 3D scene understanding, spatial reasoning, and embodied manipulation benchmarks demonstrate that our method outperforms state-of-the-art baselines, validating that generative priors provide a scalable foundation for physical-world understanding. Code is publicly available at https://github.com/H-EmbodVis/VEGA-3D.

I modelli generativi conoscono lo spazio: sfruttare i prior 3D impliciti per la comprensione delle scene

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Abstract

Support