Generative Modelle verstehen Raum: Die Nutzung impliziter 3D-Prioritäten für das Szenenverständnis

Zusammenfassung

Während multimodale große Sprachmodelle beeindruckende semantische Fähigkeiten demonstrieren, leiden sie häufig unter räumlicher Blindheit und haben Schwierigkeiten mit feinkörniger geometrischer Reasoning und physikalischer Dynamik. Bestehende Lösungen stützen sich typischerweise auf explizite 3D-Modalitäten oder komplexe geometrische Gerüste, die durch Datenknappheit und Generalisierungsherausforderungen limitiert sind. In dieser Arbeit schlagen wir einen Paradigmenwechsel vor, indem wir das implizite räumliche Vorwissen innerhalb großskaliger Videogenerierungsmodelle nutzen. Wir postulieren, dass diese Modelle, um zeitlich kohärente Videos zu synthetisieren, inherent robuste 3D-Strukturpriori und physikalische Gesetze erlernen. Wir stellen VEGA-3D (Video Extracted Generative Awareness) vor, ein Plug-and-Play-Framework, das ein vortrainiertes Video-Diffusionsmodell als einen Latent World Simulator zweckentfremdet. Durch die Extraktion raumzeitlicher Merkmale aus intermediären Rauschlevels und deren Integration mit semantischen Repräsentationen über einen token-level adaptiven gated Fusion-Mechanismus, erweitern wir MLLMs um dichte geometrische Hinweise ohne explizite 3D-Aufsicht. Umfangreiche Experimente in den Bereichen 3D-Szenenverständnis, räumliches Reasoning und Embodied-Manipulation-Benchmarks demonstrieren, dass unsere Methode state-of-the-art Baselines übertrifft und validiert, dass generative Priori eine skalierbare Grundlage für das Verständnis der physikalischen Welt bieten. Der Code ist öffentlich verfügbar unter https://github.com/H-EmbodVis/VEGA-3D.

English

While Multimodal Large Language Models demonstrate impressive semantic capabilities, they often suffer from spatial blindness, struggling with fine-grained geometric reasoning and physical dynamics. Existing solutions typically rely on explicit 3D modalities or complex geometric scaffolding, which are limited by data scarcity and generalization challenges. In this work, we propose a paradigm shift by leveraging the implicit spatial prior within large-scale video generation models. We posit that to synthesize temporally coherent videos, these models inherently learn robust 3D structural priors and physical laws. We introduce VEGA-3D (Video Extracted Generative Awareness), a plug-and-play framework that repurposes a pre-trained video diffusion model as a Latent World Simulator. By extracting spatiotemporal features from intermediate noise levels and integrating them with semantic representations via a token-level adaptive gated fusion mechanism, we enrich MLLMs with dense geometric cues without explicit 3D supervision. Extensive experiments across 3D scene understanding, spatial reasoning, and embodied manipulation benchmarks demonstrate that our method outperforms state-of-the-art baselines, validating that generative priors provide a scalable foundation for physical-world understanding. Code is publicly available at https://github.com/H-EmbodVis/VEGA-3D.

Generative Modelle verstehen Raum: Die Nutzung impliziter 3D-Prioritäten für das Szenenverständnis

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Zusammenfassung

Support