ChatPaper.aiChatPaper

HY-World 2.0: Ein multimodales Weltmodell zur Rekonstruktion, Generierung und Simulation 3D-Welten

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

April 15, 2026
Autoren: Team HY-World, Chenjie Cao, Xuhui Zuo, Zhenwei Wang, Yisu Zhang, Junta Wu, Zhenyang Liu, Yuning Gong, Yang Liu, Bo Yuan, Chao Zhang, Coopers Li, Dongyuan Guo, Fan Yang, Haiyu Zhang, Hang Cao, Jianchen Zhu, Jiaxin Lin, Jie Xiao, Jihong Zhang, Junlin Yu, Lei Wang, Lifu Wang, Lilin Wang, Linus, Minghui Chen, Peng He, Penghao Zhao, Qi Chen, Rui Chen, Rui Shao, Sicong Liu, Wangchen Qin, Xiaochuan Niu, Xiang Yuan, Yi Sun, Yifei Tang, Yifu Sun, Yihang Lian, Yonghao Tan, Yuhong Liu, Yuyang Yin, Zhiyuan Min, Tengfei Wang, Chunchao Guo
cs.AI

Zusammenfassung

Wir stellen HY-World 2.0 vor, ein multimodales Weltmodell-Framework, das unser vorheriges Projekt HY-World 1.0 weiterentwickelt. HY-World 2.0 verarbeitet verschiedene Eingabemodalitäten, einschließlich Textprompts, Einzelbilder, Mehrbildaufnahmen und Videos, und erzeugt 3D-Weltrepräsentationen. Bei Eingabe von Text oder Einzelbildern führt das Modell Weltgenerierung durch und synthetisiert hochauflösende, navigierbare 3D Gaussian Splatting (3DGS)-Szenen. Dies wird durch ein vierstufiges Verfahren erreicht: a) Panoramagenerierung mit HY-Pano 2.0, b) Trajektorienplanung mit WorldNav, c) Weltexpansion mit WorldStereo 2.0 und d) Weltkomposition mit WorldMirror 2.0. Insbesondere führen wir wichtige Innovationen ein, um die Panoramadetailtreue zu verbessern, 3D-Szenenverständnis und -planung zu ermöglichen und WorldStereo, unser schlüsselbildbasiertes Ansichtgenerierungsmodell mit konsistentem Speicher, zu erweitern. Wir verbessern ebenfalls WorldMirror, ein vorwärtsgerichtetes Modell für universelle 3D-Vorhersage, durch Verfeinerung der Modellarchitektur und Lernstrategie, was die Weltrekonstruktion aus Mehrbildaufnahmen oder Videos ermöglicht. Zudem führen wir WorldLens ein, eine leistungsstarke 3DGS-Rendering-Plattform mit einer flexiblen engine-unabhängigen Architektur, automatischer IBL-Beleuchtung, effizienter Kollisionserkennung und Trainings-Rendering-Co-Design, die interaktive Erkundung von 3D-Welten mit Charakterunterstützung ermöglicht. Umfangreiche Experimente belegen, dass HY-World 2.0 bei Open-Source-Ansätzen state-of-the-art Leistung in mehreren Benchmarks erreicht und Ergebnisse liefert, die mit dem Closed-Source-Modell Marble vergleichbar sind. Wir veröffentlichen alle Modellgewichte, Code und technische Details, um Reproduzierbarkeit zu ermöglichen und weitere Forschung zu 3D-Weltmodellen zu unterstützen.
English
We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.
PDF682April 18, 2026