ChatPaper.aiChatPaper

HunyuanWorld 1.0:言葉またはピクセルから没入的で探索可能かつインタラクティブな3D世界を生成する

HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels

July 29, 2025
著者: HunyuanWorld Team, Zhenwei Wang, Yuhao Liu, Junta Wu, Zixiao Gu, Haoyuan Wang, Xuhui Zuo, Tianyu Huang, Wenhuan Li, Sheng Zhang, Yihang Lian, Yulin Tsai, Lifu Wang, Sicong Liu, Puhua Jiang, Xianghui Yang, Dongyuan Guo, Yixuan Tang, Xinyue Mao, Jiaao Yu, Junlin Yu, Jihong Zhang, Meng Chen, Liang Dong, Yiwen Jia, Chao Zhang, Yonghao Tan, Hao Zhang, Zheng Ye, Peng He, Runzhou Wu, Minghui Chen, Zhan Li, Wangchen Qin, Lei Wang, Yifu Sun, Lin Niu, Xiang Yuan, Xiaofeng Yang, Yingping He, Jie Xiao, Yangyu Tao, Jianchen Zhu, Jinbao Xue, Kai Liu, Chongqing Zhao, Xinming Wu, Tian Liu, Peng Chen, Di Wang, Yuhong Liu, Linus, Jie Jiang, Tengfei Wang, Chunchao Guo
cs.AI

要旨

テキストや画像から没入感とプレイアビリティを兼ね備えた3D世界を生成することは、コンピュータビジョンとグラフィックスにおける根本的な課題である。既存の世界生成手法は、一般的に2つのカテゴリに分類される。1つは、豊かな多様性を提供するが3D一貫性とレンダリング効率に欠けるビデオベースの手法、もう1つは幾何学的な一貫性を提供するが限られたトレーニングデータとメモリ効率の悪い表現に悩む3Dベースの手法である。これらの制約を克服するため、我々はHunyuanWorld 1.0を提案する。これは、テキストと画像の条件から没入感、探索性、インタラクティブ性を兼ね備えた3Dシーンを生成するために、両手法の長所を組み合わせた新しいフレームワークである。我々のアプローチは、以下の3つの主要な利点を特徴とする。1) パノラマ世界プロキシによる360°の没入体験、2) 既存のコンピュータグラフィックスパイプラインとのシームレスな互換性を実現するメッシュエクスポート機能、3) インタラクティブ性を強化するための分離されたオブジェクト表現。本フレームワークの中核は、パノラマ画像を360°世界プロキシとして活用し、意味的に層化された3Dメッシュ表現を用いて世界の分解と再構築を行うことで、多様な3D世界の生成を可能にするものである。大規模な実験により、本手法が一貫性、探索性、インタラクティブ性を兼ね備えた3D世界の生成において最先端の性能を達成し、仮想現実、物理シミュレーション、ゲーム開発、インタラクティブコンテンツ作成など多岐にわたる応用を可能にすることが示された。
English
Creating immersive and playable 3D worlds from texts or images remains a fundamental challenge in computer vision and graphics. Existing world generation approaches typically fall into two categories: video-based methods that offer rich diversity but lack 3D consistency and rendering efficiency, and 3D-based methods that provide geometric consistency but struggle with limited training data and memory-inefficient representations. To address these limitations, we present HunyuanWorld 1.0, a novel framework that combines the best of both worlds for generating immersive, explorable, and interactive 3D scenes from text and image conditions. Our approach features three key advantages: 1) 360{\deg} immersive experiences via panoramic world proxies; 2) mesh export capabilities for seamless compatibility with existing computer graphics pipelines; 3) disentangled object representations for augmented interactivity. The core of our framework is a semantically layered 3D mesh representation that leverages panoramic images as 360{\deg} world proxies for semantic-aware world decomposition and reconstruction, enabling the generation of diverse 3D worlds. Extensive experiments demonstrate that our method achieves state-of-the-art performance in generating coherent, explorable, and interactive 3D worlds while enabling versatile applications in virtual reality, physical simulation, game development, and interactive content creation.
PDF855July 30, 2025