HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels

papers.abstract

La création de mondes 3D immersifs et jouables à partir de textes ou d'images reste un défi fondamental en vision par ordinateur et en infographie. Les approches existantes de génération de mondes se divisent généralement en deux catégories : les méthodes basées sur la vidéo, qui offrent une grande diversité mais manquent de cohérence 3D et d'efficacité de rendu, et les méthodes basées sur la 3D, qui assurent une cohérence géométrique mais peinent avec des données d'entraînement limitées et des représentations peu efficaces en termes de mémoire. Pour surmonter ces limitations, nous présentons HunyuanWorld 1.0, un cadre novateur qui combine le meilleur des deux mondes pour générer des scènes 3D immersives, explorables et interactives à partir de conditions textuelles et visuelles. Notre approche présente trois avantages clés : 1) des expériences immersives à 360{\deg} via des proxies panoramiques du monde ; 2) des capacités d'exportation de maillages pour une compatibilité fluide avec les pipelines d'infographie existants ; 3) des représentations d'objets désentrelacées pour une interactivité accrue. Le cœur de notre cadre repose sur une représentation de maillage 3D sémantiquement stratifiée qui exploite des images panoramiques comme proxies mondiaux à 360{\deg} pour la décomposition et la reconstruction du monde basées sur la sémantique, permettant ainsi la génération de mondes 3D diversifiés. Des expériences approfondies démontrent que notre méthode atteint des performances de pointe dans la génération de mondes 3D cohérents, explorables et interactifs, tout en permettant des applications variées dans la réalité virtuelle, la simulation physique, le développement de jeux et la création de contenu interactif.

English

Creating immersive and playable 3D worlds from texts or images remains a fundamental challenge in computer vision and graphics. Existing world generation approaches typically fall into two categories: video-based methods that offer rich diversity but lack 3D consistency and rendering efficiency, and 3D-based methods that provide geometric consistency but struggle with limited training data and memory-inefficient representations. To address these limitations, we present HunyuanWorld 1.0, a novel framework that combines the best of both worlds for generating immersive, explorable, and interactive 3D scenes from text and image conditions. Our approach features three key advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity. The core of our framework is a semantically layered 3D mesh representation that leverages panoramic images as 360{\deg} world proxies for semantic-aware world decomposition and reconstruction, enabling the generation of diverse 3D worlds. Extensive experiments demonstrate that our method achieves state-of-the-art performance in generating coherent, explorable, and interactive 3D worlds while enabling versatile applications in virtual reality, physical simulation, game development, and interactive content creation.

HunyuanWorld 1.0 : Génération de mondes 3D immersifs, explorables et interactifs à partir de mots ou de pixels

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

papers.abstract

Support