ChatPaper.aiChatPaper

HunyuanWorld 1.0: Gerando Mundos 3D Imersivos, Exploráveis e Interativos a partir de Palavras ou Pixels

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

July 29, 2025
Autores: HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo
cs.AI

Resumo

A criação de mundos 3D imersivos e jogáveis a partir de textos ou imagens continua sendo um desafio fundamental na visão computacional e na computação gráfica. As abordagens existentes para geração de mundos geralmente se enquadram em duas categorias: métodos baseados em vídeo que oferecem diversidade rica, mas carecem de consistência 3D e eficiência de renderização, e métodos baseados em 3D que fornecem consistência geométrica, mas lutam com dados de treinamento limitados e representações ineficientes em termos de memória. Para abordar essas limitações, apresentamos o HunyuanWorld 1.0, uma estrutura inovadora que combina o melhor de ambos os mundos para gerar cenas 3D imersivas, exploráveis e interativas a partir de condições de texto e imagem. Nossa abordagem apresenta três vantagens principais: 1) experiências imersivas de 360° por meio de proxies mundiais panorâmicos; 2) capacidades de exportação de malhas para compatibilidade perfeita com pipelines de computação gráfica existentes; 3) representações de objetos desacopladas para interatividade aumentada. O núcleo de nossa estrutura é uma representação de malha 3D semanticamente estratificada que utiliza imagens panorâmicas como proxies mundiais de 360° para decomposição e reconstrução de mundos com consciência semântica, permitindo a geração de diversos mundos 3D. Experimentos extensivos demonstram que nosso método alcança desempenho de ponta na geração de mundos 3D coerentes, exploráveis e interativos, ao mesmo tempo em que possibilita aplicações versáteis em realidade virtual, simulação física, desenvolvimento de jogos e criação de conteúdo interativo.
English
Creating immersive and playable 3D worlds from texts or images remains a fundamental challenge in computer vision and graphics. Existing world generation approaches typically fall into two categories: video-based methods that offer rich diversity but lack 3D consistency and rendering efficiency, and 3D-based methods that provide geometric consistency but struggle with limited training data and memory-inefficient representations. To address these limitations, we present HunyuanWorld 1.0, a novel framework that combines the best of both worlds for generating immersive, explorable, and interactive 3D scenes from text and image conditions. Our approach features three key advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity. The core of our framework is a semantically layered 3D mesh representation that leverages panoramic images as 360{\deg} world proxies for semantic-aware world decomposition and reconstruction, enabling the generation of diverse 3D worlds. Extensive experiments demonstrate that our method achieves state-of-the-art performance in generating coherent, explorable, and interactive 3D worlds while enabling versatile applications in virtual reality, physical simulation, game development, and interactive content creation.
PDF1266July 30, 2025