ChatPaper.aiChatPaper

HunyuanWorld 1.0: Generazione di Mondi 3D Immersivi, Esplorabili e Interattivi da Parole o Pixel

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

July 29, 2025
Autori: HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo
cs.AI

Abstract

La creazione di mondi 3D immersivi e giocabili a partire da testi o immagini rimane una sfida fondamentale nel campo della visione artificiale e della grafica. Gli approcci esistenti per la generazione di mondi si dividono generalmente in due categorie: metodi basati su video, che offrono una ricca diversità ma mancano di coerenza 3D e di efficienza nel rendering, e metodi basati su 3D, che garantiscono coerenza geometrica ma faticano a causa di dati di addestramento limitati e rappresentazioni inefficienti in termini di memoria. Per affrontare queste limitazioni, presentiamo HunyuanWorld 1.0, un nuovo framework che combina il meglio di entrambi gli approcci per generare scene 3D immersive, esplorabili e interattive a partire da condizioni testuali e visive. Il nostro approccio presenta tre vantaggi chiave: 1) esperienze immersive a 360° tramite proxy panoramici del mondo; 2) capacità di esportazione di mesh per una compatibilità senza soluzione di continuità con le pipeline di computer grafica esistenti; 3) rappresentazioni di oggetti disaccoppiate per una maggiore interattività. Il cuore del nostro framework è una rappresentazione di mesh 3D stratificata semanticamente che sfrutta immagini panoramiche come proxy del mondo a 360° per la decomposizione e ricostruzione del mondo consapevole della semantica, consentendo la generazione di mondi 3D diversificati. Esperimenti estesi dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella generazione di mondi 3D coerenti, esplorabili e interattivi, abilitando al contempo applicazioni versatili nella realtà virtuale, nella simulazione fisica, nello sviluppo di giochi e nella creazione di contenuti interattivi.
English
Creating immersive and playable 3D worlds from texts or images remains a fundamental challenge in computer vision and graphics. Existing world generation approaches typically fall into two categories: video-based methods that offer rich diversity but lack 3D consistency and rendering efficiency, and 3D-based methods that provide geometric consistency but struggle with limited training data and memory-inefficient representations. To address these limitations, we present HunyuanWorld 1.0, a novel framework that combines the best of both worlds for generating immersive, explorable, and interactive 3D scenes from text and image conditions. Our approach features three key advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity. The core of our framework is a semantically layered 3D mesh representation that leverages panoramic images as 360{\deg} world proxies for semantic-aware world decomposition and reconstruction, enabling the generation of diverse 3D worlds. Extensive experiments demonstrate that our method achieves state-of-the-art performance in generating coherent, explorable, and interactive 3D worlds while enabling versatile applications in virtual reality, physical simulation, game development, and interactive content creation.
PDF1035July 30, 2025