HunyuanWorld 1.0: Gerando Mundos 3D Imersivos, Exploráveis e Interativos a partir de Palavras ou Pixels

Resumo

A criação de mundos 3D imersivos e jogáveis a partir de textos ou imagens continua sendo um desafio fundamental na visão computacional e na computação gráfica. As abordagens existentes para geração de mundos geralmente se enquadram em duas categorias: métodos baseados em vídeo que oferecem diversidade rica, mas carecem de consistência 3D e eficiência de renderização, e métodos baseados em 3D que fornecem consistência geométrica, mas lutam com dados de treinamento limitados e representações ineficientes em termos de memória. Para abordar essas limitações, apresentamos o HunyuanWorld 1.0, uma estrutura inovadora que combina o melhor de ambos os mundos para gerar cenas 3D imersivas, exploráveis e interativas a partir de condições de texto e imagem. Nossa abordagem apresenta três vantagens principais: 1) experiências imersivas de 360° por meio de proxies mundiais panorâmicos; 2) capacidades de exportação de malhas para compatibilidade perfeita com pipelines de computação gráfica existentes; 3) representações de objetos desacopladas para interatividade aumentada. O núcleo de nossa estrutura é uma representação de malha 3D semanticamente estratificada que utiliza imagens panorâmicas como proxies mundiais de 360° para decomposição e reconstrução de mundos com consciência semântica, permitindo a geração de diversos mundos 3D. Experimentos extensivos demonstram que nosso método alcança desempenho de ponta na geração de mundos 3D coerentes, exploráveis e interativos, ao mesmo tempo em que possibilita aplicações versáteis em realidade virtual, simulação física, desenvolvimento de jogos e criação de conteúdo interativo.

English

Creating immersive and playable 3D worlds from texts or images remains a fundamental challenge in computer vision and graphics. Existing world generation approaches typically fall into two categories: video-based methods that offer rich diversity but lack 3D consistency and rendering efficiency, and 3D-based methods that provide geometric consistency but struggle with limited training data and memory-inefficient representations. To address these limitations, we present HunyuanWorld 1.0, a novel framework that combines the best of both worlds for generating immersive, explorable, and interactive 3D scenes from text and image conditions. Our approach features three key advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity. The core of our framework is a semantically layered 3D mesh representation that leverages panoramic images as 360{\deg} world proxies for semantic-aware world decomposition and reconstruction, enabling the generation of diverse 3D worlds. Extensive experiments demonstrate that our method achieves state-of-the-art performance in generating coherent, explorable, and interactive 3D worlds while enabling versatile applications in virtual reality, physical simulation, game development, and interactive content creation.

HunyuanWorld 1.0: Gerando Mundos 3D Imersivos, Exploráveis e Interativos a partir de Palavras ou Pixels

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

Resumo

Support