Map2World: Segmentkarten-basierte Text-zu-3D-Welt-Generierung
Map2World: Segment Map Conditioned Text to 3D World Generation
May 1, 2026
Autoren: Jaeyoung Chung, Suyoung Lee, Jianfeng Xiang, Jiaolong Yang, Kyoung Mu Lee
cs.AI
Zusammenfassung
Die Erzeugung von 3D-Welten ist entscheidend für Anwendungen wie die Erstellung immersiver Inhalte oder die Simulation des autonomen Fahrens. Jüngste Fortschritte in der 3D-Welterzeugung haben vielversprechende Ergebnisse gezeigt; diese Methoden sind jedoch durch Rasterlayouts eingeschränkt und leiden unter Inkonsistenzen im Objektmaßstab in der gesamten Welt. In dieser Arbeit stellen wir einen neuartigen Framework, Map2World, vor, der erstmals eine 3D-Welterzeugung ermöglicht, die auf benutzerdefinierten Segmentkarten beliebiger Formen und Maßstäbe konditioniert ist. Dies gewährleistet globale Maßstabs-Konsistenz und Flexibilität in weitläufigen Umgebungen. Um die Qualität weiter zu steigern, schlagen wir ein Detailverstärker-Netzwerk vor, das feine Details der Welt erzeugt. Der Detailverstärker ermöglicht das Hinzufügen fein granulärer Details, ohne die Gesamtzusammenhängigkeit der Szene zu beeinträchtigen, indem globale Strukturinformationen einbezogen werden. Wir gestalten die gesamte Pipeline so, dass sie starke A-priori-Informationen von Asset-Generatoren nutzt, um eine robuste Generalisierung über verschiedene Domänen hinweg zu erreichen, selbst bei begrenzten Trainingsdaten für die Szenengenerierung. Umfangreiche Experimente zeigen, dass unsere Methode bestehende Ansätze in Bezug auf Benutzersteuerbarkeit, Maßstabs-Konsistenz und inhaltliche Kohärenz signifikant übertrifft und es Nutzern ermöglicht, 3D-Welten unter komplexeren Bedingungen zu generieren.
English
3D world generation is essential for applications such as immersive content creation or autonomous driving simulation. Recent advances in 3D world generation have shown promising results; however, these methods are constrained by grid layouts and suffer from inconsistencies in object scale throughout the entire world. In this work, we introduce a novel framework, Map2World, that first enables 3D world generation conditioned on user-defined segment maps of arbitrary shapes and scales, ensuring global-scale consistency and flexibility across expansive environments. To further enhance the quality, we propose a detail enhancer network that generates fine details of the world. The detail enhancer enables the addition of fine-grained details without compromising overall scene coherence by incorporating global structure information. We design the entire pipeline to leverage strong priors from asset generators, achieving robust generalization across diverse domains, even under limited training data for scene generation. Extensive experiments demonstrate that our method significantly outperforms existing approaches in user-controllability, scale consistency, and content coherence, enabling users to generate 3D worlds under more complex conditions.