Map2World : Génération de mondes 3D conditionnée par des cartes segmentées et du texte
Map2World: Segment Map Conditioned Text to 3D World Generation
May 1, 2026
Auteurs: Jaeyoung Chung, Suyoung Lee, Jianfeng Xiang, Jiaolong Yang, Kyoung Mu Lee
cs.AI
Résumé
La génération de mondes 3D est essentielle pour des applications telles que la création de contenu immersif ou la simulation de conduite autonome. Les récentes avancées en génération de mondes 3D ont montré des résultats prometteurs ; cependant, ces méthodes sont limitées par des dispositions en grille et souffrent d'incohérences dans l'échelle des objets à travers le monde entier. Dans ce travail, nous présentons un nouveau cadre, Map2World, qui permet pour la première fois la génération de mondes 3D conditionnée par des cartes de segments définies par l'utilisateur, de formes et d'échelles arbitraires, garantissant une cohérence à l'échelle globale et une flexibilité dans des environnements étendus. Pour améliorer davantage la qualité, nous proposons un réseau d'amélioration des détails qui génère les détails fins du monde. Ce module permet l'ajout de détails granulaires sans compromettre la cohérence globale de la scène en intégrant des informations sur la structure globale. Nous concevons l'ensemble du pipeline pour tirer parti de fortes connaissances a priori de générateurs d'assets, obtenant ainsi une généralisation robuste dans divers domaines, même avec des données d'entraînement limitées pour la génération de scènes. Des expériences approfondies démontrent que notre méthode surpasse significativement les approches existantes en termes de contrôlabilité par l'utilisateur, de cohérence d'échelle et de cohérence du contenu, permettant aux utilisateurs de générer des mondes 3D dans des conditions plus complexes.
English
3D world generation is essential for applications such as immersive content creation or autonomous driving simulation. Recent advances in 3D world generation have shown promising results; however, these methods are constrained by grid layouts and suffer from inconsistencies in object scale throughout the entire world. In this work, we introduce a novel framework, Map2World, that first enables 3D world generation conditioned on user-defined segment maps of arbitrary shapes and scales, ensuring global-scale consistency and flexibility across expansive environments. To further enhance the quality, we propose a detail enhancer network that generates fine details of the world. The detail enhancer enables the addition of fine-grained details without compromising overall scene coherence by incorporating global structure information. We design the entire pipeline to leverage strong priors from asset generators, achieving robust generalization across diverse domains, even under limited training data for scene generation. Extensive experiments demonstrate that our method significantly outperforms existing approaches in user-controllability, scale consistency, and content coherence, enabling users to generate 3D worlds under more complex conditions.