Modelos de Geração Conhecem o Espaço: Liberando Prioridades 3D Implícitas para Compreensão de Cenas

Resumo

Embora os Modelos de Linguagem Multimodais de Grande Escala demonstrem capacidades semânticas impressionantes, eles frequentemente sofrem de cegueira espacial, lutando com raciocínio geométrico de granularidade fina e dinâmicas físicas. As soluções existentes normalmente dependem de modalidades 3D explícitas ou de arcabouços geométricos complexos, que são limitados pela escassez de dados e desafios de generalização. Neste trabalho, propomos uma mudança de paradigma ao aproveitar o conhecimento prévio espacial implícito dentro de modelos de geração de vídeo em larga escala. Postulamos que, para sintetizar vídeos temporalmente coerentes, esses modelos aprendem inerentemente conhecimentos prévios robustos de estrutura 3D e leis físicas. Introduzimos o VEGA-3D (Video Extracted Generative Awareness), um framework plug-and-play que redireciona um modelo de difusão de vídeo pré-treinado como um Simulador de Mundo Latente. Ao extrair características espaço-temporais de níveis intermediários de ruído e integrá-las com representações semânticas por meio de um mecanismo de fusão adaptativa com portão em nível de token, enriquecemos os MLLMs com pistas geométricas densas sem supervisão 3D explícita. Experimentos extensos em benchmarks de compreensão de cena 3D, raciocínio espacial e manipulação embodida demonstram que nosso método supera os baselines state-of-the-art, validando que conhecimentos prévios generativos fornecem uma base escalável para a compreensão do mundo físico. O código está publicamente disponível em https://github.com/H-EmbodVis/VEGA-3D.

English

While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models. We posit that to synthesize temporally coherent videos, these models inherently learn robust 3D structural priors and physical laws. We introduce VEGA-3D (Video Extracted Generative Awareness), a plug-and-play framework that repurposes a pre-trained video diffusion model as a Latent World Simulator. By extracting spatiotemporal features from intermediate noise levels and integrating them with semantic representations via a token-level adaptive gated fusion mechanism, we enrich MLLMs with dense geometric cues without explicit 3D supervision. Extensive experiments across 3D scene understanding, spatial reasoning, and embodied manipulation benchmarks demonstrate that our method outperforms state-of-the-art baselines, validating that generative priors provide a scalable foundation for physical-world understanding. Code is publicly available at https://github.com/H-EmbodVis/VEGA-3D.

Modelos de Geração Conhecem o Espaço: Liberando Prioridades 3D Implícitas para Compreensão de Cenas

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Resumo

Support