HunyuanWorld 1.0: Generazione di Mondi 3D Immersivi, Esplorabili e Interattivi da Parole o Pixel

Abstract

La creazione di mondi 3D immersivi e giocabili a partire da testi o immagini rimane una sfida fondamentale nel campo della visione artificiale e della grafica. Gli approcci esistenti per la generazione di mondi si dividono generalmente in due categorie: metodi basati su video, che offrono una ricca diversità ma mancano di coerenza 3D e di efficienza nel rendering, e metodi basati su 3D, che garantiscono coerenza geometrica ma faticano a causa di dati di addestramento limitati e rappresentazioni inefficienti in termini di memoria. Per affrontare queste limitazioni, presentiamo HunyuanWorld 1.0, un nuovo framework che combina il meglio di entrambi gli approcci per generare scene 3D immersive, esplorabili e interattive a partire da condizioni testuali e visive. Il nostro approccio presenta tre vantaggi chiave: 1) esperienze immersive a 360° tramite proxy panoramici del mondo; 2) capacità di esportazione di mesh per una compatibilità senza soluzione di continuità con le pipeline di computer grafica esistenti; 3) rappresentazioni di oggetti disaccoppiate per una maggiore interattività. Il cuore del nostro framework è una rappresentazione di mesh 3D stratificata semanticamente che sfrutta immagini panoramiche come proxy del mondo a 360° per la decomposizione e ricostruzione del mondo consapevole della semantica, consentendo la generazione di mondi 3D diversificati. Esperimenti estesi dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella generazione di mondi 3D coerenti, esplorabili e interattivi, abilitando al contempo applicazioni versatili nella realtà virtuale, nella simulazione fisica, nello sviluppo di giochi e nella creazione di contenuti interattivi.

English

Creating immersive and playable 3D worlds from texts or images remains a fundamental challenge in computer vision and graphics. Existing world generation approaches typically fall into two categories: video-based methods that offer rich diversity but lack 3D consistency and rendering efficiency, and 3D-based methods that provide geometric consistency but struggle with limited training data and memory-inefficient representations. To address these limitations, we present HunyuanWorld 1.0, a novel framework that combines the best of both worlds for generating immersive, explorable, and interactive 3D scenes from text and image conditions. Our approach features three key advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity. The core of our framework is a semantically layered 3D mesh representation that leverages panoramic images as 360{\deg} world proxies for semantic-aware world decomposition and reconstruction, enabling the generation of diverse 3D worlds. Extensive experiments demonstrate that our method achieves state-of-the-art performance in generating coherent, explorable, and interactive 3D worlds while enabling versatile applications in virtual reality, physical simulation, game development, and interactive content creation.

HunyuanWorld 1.0: Generazione di Mondi 3D Immersivi, Esplorabili e Interattivi da Parole o Pixel

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

Abstract

Support