HunyuanWorld 1.0: Generación de mundos 3D inmersivos, explorables e interactivos a partir de palabras o píxeles
HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels
July 29, 2025
Autores: HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo
cs.AI
Resumen
La creación de mundos 3D inmersivos y jugables a partir de textos o imágenes sigue siendo un desafío fundamental en visión por computadora y gráficos. Los enfoques existentes para la generación de mundos suelen dividirse en dos categorías: métodos basados en video que ofrecen una rica diversidad pero carecen de consistencia 3D y eficiencia en la renderización, y métodos basados en 3D que proporcionan consistencia geométrica pero enfrentan limitaciones debido a datos de entrenamiento escasos y representaciones ineficientes en términos de memoria. Para abordar estas limitaciones, presentamos HunyuanWorld 1.0, un marco novedoso que combina lo mejor de ambos enfoques para generar escenas 3D inmersivas, explorables e interactivas a partir de condiciones de texto e imagen. Nuestro enfoque presenta tres ventajas clave: 1) experiencias inmersivas de 360° mediante proxies panorámicos del mundo; 2) capacidades de exportación de mallas para una compatibilidad fluida con las tuberías de gráficos por computadora existentes; 3) representaciones de objetos desacopladas para una interactividad aumentada. El núcleo de nuestro marco es una representación de malla 3D semánticamente estratificada que aprovecha imágenes panorámicas como proxies de 360° para la descomposición y reconstrucción del mundo con conciencia semántica, permitiendo la generación de diversos mundos 3D. Experimentos exhaustivos demuestran que nuestro método alcanza un rendimiento de vanguardia en la generación de mundos 3D coherentes, explorables e interactivos, al tiempo que habilita aplicaciones versátiles en realidad virtual, simulación física, desarrollo de videojuegos y creación de contenido interactivo.
English
Creating immersive and playable 3D worlds from texts or images remains a
fundamental challenge in computer vision and graphics. Existing world
generation approaches typically fall into two categories: video-based methods
that offer rich diversity but lack 3D consistency and rendering efficiency, and
3D-based methods that provide geometric consistency but struggle with limited
training data and memory-inefficient representations. To address these
limitations, we present HunyuanWorld 1.0, a novel framework that combines the
best of both worlds for generating immersive, explorable, and interactive 3D
scenes from text and image conditions. Our approach features three key
advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2)
mesh export capabilities for seamless compatibility with existing computer
graphics pipelines; 3) disentangled object representations for augmented
interactivity. The core of our framework is a semantically layered 3D mesh
representation that leverages panoramic images as 360{\deg} world proxies for
semantic-aware world decomposition and reconstruction, enabling the generation
of diverse 3D worlds. Extensive experiments demonstrate that our method
achieves state-of-the-art performance in generating coherent, explorable, and
interactive 3D worlds while enabling versatile applications in virtual reality,
physical simulation, game development, and interactive content creation.