HunyuanWorld 1.0: Generación de mundos 3D inmersivos, explorables e interactivos a partir de palabras o píxeles

Resumen

La creación de mundos 3D inmersivos y jugables a partir de textos o imágenes sigue siendo un desafío fundamental en visión por computadora y gráficos. Los enfoques existentes para la generación de mundos suelen dividirse en dos categorías: métodos basados en video que ofrecen una rica diversidad pero carecen de consistencia 3D y eficiencia en la renderización, y métodos basados en 3D que proporcionan consistencia geométrica pero enfrentan limitaciones debido a datos de entrenamiento escasos y representaciones ineficientes en términos de memoria. Para abordar estas limitaciones, presentamos HunyuanWorld 1.0, un marco novedoso que combina lo mejor de ambos enfoques para generar escenas 3D inmersivas, explorables e interactivas a partir de condiciones de texto e imagen. Nuestro enfoque presenta tres ventajas clave: 1) experiencias inmersivas de 360° mediante proxies panorámicos del mundo; 2) capacidades de exportación de mallas para una compatibilidad fluida con las tuberías de gráficos por computadora existentes; 3) representaciones de objetos desacopladas para una interactividad aumentada. El núcleo de nuestro marco es una representación de malla 3D semánticamente estratificada que aprovecha imágenes panorámicas como proxies de 360° para la descomposición y reconstrucción del mundo con conciencia semántica, permitiendo la generación de diversos mundos 3D. Experimentos exhaustivos demuestran que nuestro método alcanza un rendimiento de vanguardia en la generación de mundos 3D coherentes, explorables e interactivos, al tiempo que habilita aplicaciones versátiles en realidad virtual, simulación física, desarrollo de videojuegos y creación de contenido interactivo.

English

Creating immersive and playable 3D worlds from texts or images remains a fundamental challenge in computer vision and graphics. Existing world generation approaches typically fall into two categories: video-based methods that offer rich diversity but lack 3D consistency and rendering efficiency, and 3D-based methods that provide geometric consistency but struggle with limited training data and memory-inefficient representations. To address these limitations, we present HunyuanWorld 1.0, a novel framework that combines the best of both worlds for generating immersive, explorable, and interactive 3D scenes from text and image conditions. Our approach features three key advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity. The core of our framework is a semantically layered 3D mesh representation that leverages panoramic images as 360{\deg} world proxies for semantic-aware world decomposition and reconstruction, enabling the generation of diverse 3D worlds. Extensive experiments demonstrate that our method achieves state-of-the-art performance in generating coherent, explorable, and interactive 3D worlds while enabling versatile applications in virtual reality, physical simulation, game development, and interactive content creation.