ChatPaper.aiChatPaper

HY-World 2.0: Un modello mondiale multimodale per la ricostruzione, generazione e simulazione di mondi 3D

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

April 15, 2026
Autori: Team HY-World, Chenjie Cao, Xuhui Zuo, Zhenwei Wang, Yisu Zhang, Junta Wu, Zhenyang Liu, Yuning Gong, Yang Liu, Bo Yuan, Chao Zhang, Coopers Li, Dongyuan Guo, Fan Yang, Haiyu Zhang, Hang Cao, Jianchen Zhu, Jiaxin Lin, Jie Xiao, Jihong Zhang, Junlin Yu, Lei Wang, Lifu Wang, Lilin Wang, Linus, Minghui Chen, Peng He, Penghao Zhao, Qi Chen, Rui Chen, Rui Shao, Sicong Liu, Wangchen Qin, Xiaochuan Niu, Xiang Yuan, Yi Sun, Yifei Tang, Yifu Sun, Yihang Lian, Yonghao Tan, Yuhong Liu, Yuyang Yin, Zhiyuan Min, Tengfei Wang, Chunchao Guo
cs.AI

Abstract

Presentiamo HY-World 2.0, un framework di modelli mondiali multimodale che rappresenta un avanzamento rispetto al nostro precedente progetto HY-World 1.0. HY-World 2.0 accetta diverse modalità di input, inclusi prompt testuali, immagini a vista singola, immagini multivista e video, e produce rappresentazioni 3D del mondo. Con input testuali o di immagini a vista singola, il modello esegue la generazione di mondi, sintetizzando scene navigabili ad alta fedeltà utilizzando la tecnica del Gaussian Splatting 3D (3DGS). Questo risultato è ottenuto attraverso un metodo articolato in quattro fasi: a) Generazione di Panorami con HY-Pano 2.0, b) Pianificazione della Traiettoria con WorldNav, c) Espansione del Mondo con WorldStereo 2.0, e d) Composizione del Mondo con WorldMirror 2.0. Nello specifico, introduciamo innovazioni chiave per migliorare la fedeltà dei panorami, abilitare la comprensione e la pianificazione di scene 3D, e potenziare WorldStereo, il nostro modello di generazione di viste basato su keyframe, dotandolo di una memoria consistente. Potenziamo inoltre WorldMirror, un modello feed-forward per la previsione 3D universale, affinando l'architettura del modello e la strategia di apprendimento, consentendo la ricostruzione del mondo a partire da immagini multivista o video. Inoltre, introduciamo WorldLens, una piattaforma di rendering 3DGS ad alte prestazioni che vanta un'architettura flessibile e indipendente dal motore di rendering, illuminazione IBL automatica, rilevamento efficiente delle collisioni e una co-progettazione di addestramento e rendering, permettendo l'esplorazione interattiva di mondi 3D con supporto per personaggi. Esperimenti estensivi dimostrano che HY-World 2.0 raggiunge prestazioni all'avanguardia su diversi benchmark tra gli approcci open-source, fornendo risultati paragonabili al modello closed-source Marble. Rilasciamo tutti i pesi dei modelli, il codice e i dettagli tecnici per facilitare la riproducibilità e supportare ulteriori ricerche sui modelli mondiali 3D.
English
We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.
PDF804April 18, 2026