HY-World 2.0: 3D 세계 재구성, 생성 및 시뮬레이션을 위한 다중 모달 월드 모델
HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds
April 15, 2026
저자: Team HY-World, Chenjie Cao, Xuhui Zuo, Zhenwei Wang, Yisu Zhang, Junta Wu, Zhenyang Liu, Yuning Gong, Yang Liu, Bo Yuan, Chao Zhang, Coopers Li, Dongyuan Guo, Fan Yang, Haiyu Zhang, Hang Cao, Jianchen Zhu, Jiaxin Lin, Jie Xiao, Jihong Zhang, Junlin Yu, Lei Wang, Lifu Wang, Lilin Wang, Linus, Minghui Chen, Peng He, Penghao Zhao, Qi Chen, Rui Chen, Rui Shao, Sicong Liu, Wangchen Qin, Xiaochuan Niu, Xiang Yuan, Yi Sun, Yifei Tang, Yifu Sun, Yihang Lian, Yonghao Tan, Yuhong Liu, Yuyang Yin, Zhiyuan Min, Tengfei Wang, Chunchao Guo
cs.AI
초록
기존 HY-World 1.0 프로젝트를 발전시킨 HY-World 2.0은 다중 모달 월드 모델 프레임워크로, 텍스트 프롬프트, 단일 뷰 이미지, 다중 뷰 이미지, 비디오 등 다양한 입력 양식을 수용하여 3D 월드 표현을 생성합니다. 텍스트 또는 단일 뷰 이미지 입력 시 모델은 4단계 방법(a) HY-Pano 2.0을 통한 파노라마 생성, b) WorldNav를 통한 궤적 계획, c) WorldStereo 2.0을 통한 월드 확장, d) WorldMirror 2.0을 통한 월드 합성)을 통해 내비게이션이 가능한 고해상도 3D Gaussian Splatting(3DGS) 장면을 합성하는 월드 생성 작업을 수행합니다. 특히 파노라마 충실도를 향상시키고, 3D 장면 이해 및 계획을 가능하게 하며, 일관된 메모리를 갖춘 키프레임 기반 뷰 생성 모델인 WorldStereo를 업그레이드하는 핵심 혁신을 도입했습니다. 또한 피드포워드 방식의 범용 3D 예측 모델인 WorldMirror의 모델 아키텍처와 학습 전략을 개선하여 다중 뷰 이미지나 비디오로부터의 월드 재구성을 가능하게 했습니다. 아울러 유연한 엔진 독립적 아키텍처, 자동 IBL 라이팅, 효율적 충돌 감지, 훈련-렌더링 공동 설계를 특징으로 하는 고성능 3DGS 렌더링 플랫폼인 WorldLens를 소개하며, 캐릭터 지원이 가능한 인터랙티브 3D 월드 탐색을 구현했습니다. 광범위한 실험을 통해 HY-World 2.0이 오픈소스 접근법 중 여러 벤치마크에서 최첨단 성능을 달성하며 비공개 모델 Marble에 버금가는 결과를 제공함을 입증했습니다. 재현성 보장 및 3D 월드 모델 연구의 추가 발전을 위해 모든 모델 가중치, 코드 및 기술 세부 사항을 공개합니다.
English
We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.