HunyuanWorld 1.0: Erzeugung immersiver, erkundbarer und interaktiver 3D-Welten aus Wörtern oder Pixeln

papers.abstract

Die Erstellung immersiver und spielbarer 3D-Welten aus Texten oder Bildern bleibt eine grundlegende Herausforderung in der Computer Vision und Grafik. Bestehende Ansätze zur Welterzeugung lassen sich typischerweise in zwei Kategorien einteilen: videobasierte Methoden, die eine große Vielfalt bieten, jedoch an 3D-Konsistenz und Render-Effizienz mangeln, und 3D-basierte Methoden, die geometrische Konsistenz gewährleisten, jedoch mit begrenzten Trainingsdaten und speicherineffizienten Darstellungen kämpfen. Um diese Einschränkungen zu überwinden, präsentieren wir HunyuanWorld 1.0, ein neuartiges Framework, das die Vorteile beider Ansätze kombiniert, um immersive, erkundbare und interaktive 3D-Szenen aus Text- und Bildbedingungen zu generieren. Unser Ansatz bietet drei wesentliche Vorteile: 1) 360°-Immersionserlebnisse durch panoramische Welt-Proxys; 2) Mesh-Export-Fähigkeiten für nahtlose Kompatibilität mit bestehenden Computergrafik-Pipelines; 3) entkoppelte Objektdarstellungen für erweiterte Interaktivität. Das Kernstück unseres Frameworks ist eine semantisch geschichtete 3D-Mesh-Darstellung, die Panoramabilder als 360°-Welt-Proxys nutzt, um eine semantikbewusste Weltzerlegung und -rekonstruktion zu ermöglichen, was die Erzeugung vielfältiger 3D-Welten unterstützt. Umfangreiche Experimente zeigen, dass unsere Methode Spitzenleistungen bei der Erzeugung kohärenter, erkundbarer und interaktiver 3D-Welten erzielt und gleichzeitig vielseitige Anwendungen in Virtual Reality, physikalischer Simulation, Spielentwicklung und interaktiver Inhaltserstellung ermöglicht.

English

Creating immersive and playable 3D worlds from texts or images remains a fundamental challenge in computer vision and graphics. Existing world generation approaches typically fall into two categories: video-based methods that offer rich diversity but lack 3D consistency and rendering efficiency, and 3D-based methods that provide geometric consistency but struggle with limited training data and memory-inefficient representations. To address these limitations, we present HunyuanWorld 1.0, a novel framework that combines the best of both worlds for generating immersive, explorable, and interactive 3D scenes from text and image conditions. Our approach features three key advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity. The core of our framework is a semantically layered 3D mesh representation that leverages panoramic images as 360{\deg} world proxies for semantic-aware world decomposition and reconstruction, enabling the generation of diverse 3D worlds. Extensive experiments demonstrate that our method achieves state-of-the-art performance in generating coherent, explorable, and interactive 3D worlds while enabling versatile applications in virtual reality, physical simulation, game development, and interactive content creation.

HunyuanWorld 1.0: Erzeugung immersiver, erkundbarer und interaktiver 3D-Welten aus Wörtern oder Pixeln

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

papers.abstract

Support