ChatPaper.aiChatPaper

HY-World 2.0: Un Modelo Mundial Multimodal para Reconstruir, Generar y Simular Mundos 3D

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

April 15, 2026
Autores: Team HY-World, Chenjie Cao, Xuhui Zuo, Zhenwei Wang, Yisu Zhang, Junta Wu, Zhenyang Liu, Yuning Gong, Yang Liu, Bo Yuan, Chao Zhang, Coopers Li, Dongyuan Guo, Fan Yang, Haiyu Zhang, Hang Cao, Jianchen Zhu, Jiaxin Lin, Jie Xiao, Jihong Zhang, Junlin Yu, Lei Wang, Lifu Wang, Lilin Wang, Linus, Minghui Chen, Peng He, Penghao Zhao, Qi Chen, Rui Chen, Rui Shao, Sicong Liu, Wangchen Qin, Xiaochuan Niu, Xiang Yuan, Yi Sun, Yifei Tang, Yifu Sun, Yihang Lian, Yonghao Tan, Yuhong Liu, Yuyang Yin, Zhiyuan Min, Tengfei Wang, Chunchao Guo
cs.AI

Resumen

Presentamos HY-World 2.0, un marco de modelo de mundo multimodal que avanza nuestro proyecto anterior HY-World 1.0. HY-World 2.0 admite diversas modalidades de entrada, incluyendo instrucciones de texto, imágenes de vista única, imágenes multi-vista y vídeos, y produce representaciones de mundos en 3D. Con entradas de texto o imágenes de vista única, el modelo realiza generación de mundos, sintetizando escenas navegables de alta fidelidad mediante la técnica de Gaussian Splatting 3D (3DGS). Esto se logra mediante un método de cuatro etapas: a) Generación de Panoramas con HY-Pano 2.0, b) Planificación de Trayectorias con WorldNav, c) Expansión del Mundo con WorldStereo 2.0, y d) Composición del Mundo con WorldMirror 2.0. Específicamente, introducimos innovaciones clave para mejorar la fidelidad de los panoramas, permitir la comprensión y planificación de escenas 3D, y actualizar WorldStereo, nuestro modelo de generación de vistas basado en fotogramas clave con memoria consistente. También actualizamos WorldMirror, un modelo de retroalimentación directa para predicción 3D universal, refinando la arquitectura del modelo y la estrategia de aprendizaje, permitiendo la reconstrucción del mundo a partir de imágenes multi-vista o vídeos. Además, presentamos WorldLens, una plataforma de renderizado 3DGS de alto rendimiento que presenta una arquitectura flexible independiente del motor, iluminación IBL automática, detección eficiente de colisiones y un diseño conjunto de entrenamiento-renderizado, permitiendo la exploración interactiva de mundos 3D con soporte para personajes. Experimentos exhaustivos demuestran que HY-World 2.0 logra un rendimiento state-of-the-art en varios benchmarks entre los enfoques de código abierto, ofreciendo resultados comparables al modelo de código cerrado Marble. Liberamos todos los pesos de los modelos, el código y los detalles técnicos para facilitar la reproducibilidad y apoyar futuras investigaciones sobre modelos de mundo 3D.
English
We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.
PDF682April 18, 2026