Map2World: Generación de Mundos 3D a partir de Texto Condicionado por Mapas Segmentados
Map2World: Segment Map Conditioned Text to 3D World Generation
May 1, 2026
Autores: Jaeyoung Chung, Suyoung Lee, Jianfeng Xiang, Jiaolong Yang, Kyoung Mu Lee
cs.AI
Resumen
La generación de mundos 3D es esencial para aplicaciones como la creación de contenido inmersivo o la simulación de conducción autónoma. Los avances recientes en generación de mundos 3D han mostrado resultados prometedores; sin embargo, estos métodos están limitados por diseños de cuadrícula y adolecen de inconsistencias en la escala de los objetos a lo largo de todo el mundo. En este trabajo, presentamos un marco novedoso, Map2World, que permite por primera vez la generación de mundos 3D condicionada por mapas de segmentos de formas y escalas arbitrarias definidos por el usuario, garantizando coherencia de escala global y flexibilidad en entornos expansivos. Para mejorar aún más la calidad, proponemos una red potenciadora de detalles que genera los detalles finos del mundo. El potenciador de detalles permite añadir detalles de grano fino sin comprometer la coherencia general de la escena mediante la incorporación de información de la estructura global. Diseñamos toda la canalización para aprovejar fuertes *priors* de generadores de activos, logrando una generalización robusta en diversos dominios, incluso con datos de entrenamiento limitados para la generación de escenas. Experimentos exhaustivos demuestran que nuestro método supera significativamente a los enfoques existentes en controlabilidad por parte del usuario, coherencia de escala y coherencia de contenido, permitiendo a los usuarios generar mundos 3D bajo condiciones más complejas.
English
3D world generation is essential for applications such as immersive content creation or autonomous driving simulation. Recent advances in 3D world generation have shown promising results; however, these methods are constrained by grid layouts and suffer from inconsistencies in object scale throughout the entire world. In this work, we introduce a novel framework, Map2World, that first enables 3D world generation conditioned on user-defined segment maps of arbitrary shapes and scales, ensuring global-scale consistency and flexibility across expansive environments. To further enhance the quality, we propose a detail enhancer network that generates fine details of the world. The detail enhancer enables the addition of fine-grained details without compromising overall scene coherence by incorporating global structure information. We design the entire pipeline to leverage strong priors from asset generators, achieving robust generalization across diverse domains, even under limited training data for scene generation. Extensive experiments demonstrate that our method significantly outperforms existing approaches in user-controllability, scale consistency, and content coherence, enabling users to generate 3D worlds under more complex conditions.