Map2World: Segmentatiekaart-geconditioneerde tekst naar 3D-wereldgeneratie
Map2World: Segment Map Conditioned Text to 3D World Generation
May 1, 2026
Auteurs: Jaeyoung Chung, Suyoung Lee, Jianfeng Xiang, Jiaolong Yang, Kyoung Mu Lee
cs.AI
Samenvatting
3D-wereldgeneratie is essentieel voor toepassingen zoals het creëren van immersieve content of simulaties voor autonoom rijden. Recente vooruitgang in 3D-wereldgeneratie heeft veelbelovende resultaten opgeleverd; deze methoden worden echter beperkt door rasterlay-outs en hebben last van inconsistenties in de schaal van objecten in de gehele wereld. In dit werk introduceren we een nieuw raamwerk, Map2World, dat als eerste 3D-wereldgeneratie mogelijk maakt op basis van door de gebruiker gedefinieerde segmentatiekaarten met willekeurige vormen en schalen, waardoor wereldwijde schaalconsistentie en flexibiliteit in uitgestrekte omgevingen wordt gegarandeerd. Om de kwaliteit verder te verbeteren, stellen we een detailverbeteraarsnetwerk voor dat fijne details van de wereld genereert. De detailverbeteraar maakt het mogelijk fijnmazige details toe te voegen zonder de algehele scènecoherentie aan te tasten, door globale structuurinformatie te integreren. We ontwerpen de gehele pijplijn om sterke aannames van assetgeneratoren te benutten, waardoor robuuste generalisatie over diverse domeinen wordt bereikt, zelfs bij beperkte trainingsdata voor scènegeneratie. Uitgebreide experimenten tonen aan dat onze methodologie bestaande benaderingen significant overtreft in gebruikersbestuurbaarheid, schaalconsistentie en inhoudelijke samenhang, waardoor gebruikers 3D-werelden kunnen genereren onder complexere condities.
English
3D world generation is essential for applications such as immersive content creation or autonomous driving simulation. Recent advances in 3D world generation have shown promising results; however, these methods are constrained by grid layouts and suffer from inconsistencies in object scale throughout the entire world. In this work, we introduce a novel framework, Map2World, that first enables 3D world generation conditioned on user-defined segment maps of arbitrary shapes and scales, ensuring global-scale consistency and flexibility across expansive environments. To further enhance the quality, we propose a detail enhancer network that generates fine details of the world. The detail enhancer enables the addition of fine-grained details without compromising overall scene coherence by incorporating global structure information. We design the entire pipeline to leverage strong priors from asset generators, achieving robust generalization across diverse domains, even under limited training data for scene generation. Extensive experiments demonstrate that our method significantly outperforms existing approaches in user-controllability, scale consistency, and content coherence, enabling users to generate 3D worlds under more complex conditions.