HY-World 2.0: Um Modelo de Mundo Multimodal para Reconstruir, Gerar e Simular Mundos 3D

Resumo

Apresentamos o HY-World 2.0, uma estrutura de modelo de mundo multimodal que avança nosso projeto anterior, o HY-World 1.0. O HY-World 2.0 acomoda diversas modalidades de entrada, incluindo instruções de texto, imagens de visão única, imagens multivista e vídeos, e produz representações de mundo em 3D. Com entradas de texto ou imagem de visão única, o modelo realiza a geração de mundos, sintetizando cenas navegáveis de alta fidelidade usando a técnica de *3D Gaussian Splatting* (3DGS). Isso é alcançado por meio de um método em quatro estágios: a) Geração de Panorama com o HY-Pano 2.0, b) Planejamento de Trajetória com o WorldNav, c) Expansão do Mundo com o WorldStereo 2.0 e d) Composição do Mundo com o WorldMirror 2.0. Especificamente, introduzimos inovações-chave para melhorar a fidelidade do panorama, permitir a compreensão e o planejamento de cenas 3D, e atualizar o WorldStereo, nosso modelo de geração de vistas baseado em *keyframes* com memória consistente. Também atualizamos o WorldMirror, um modelo *feed-forward* para predição 3D universal, refinando a arquitetura do modelo e a estratégia de aprendizado, permitindo a reconstrução do mundo a partir de imagens multivista ou vídeos. Adicionalmente, introduzimos o WorldLens, uma plataforma de renderização 3DGS de alto desempenho que apresenta uma arquitetura flexível e independente de *engine*, iluminação IBL automática, detecção eficiente de colisões e co-design de treinamento e renderização, permitindo a exploração interativa de mundos 3D com suporte a personagens. Experimentos extensivos demonstram que o HY-World 2.0 atinge um desempenho de ponta em vários benchmarks entre as abordagens de código aberto, fornecendo resultados comparáveis ao modelo de código fechado Marble. Liberamos todos os pesos dos modelos, código e detalhes técnicos para facilitar a reprodutibilidade e apoiar pesquisas futuras em modelos de mundo 3D.

English

We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.

HY-World 2.0: Um Modelo de Mundo Multimodal para Reconstruir, Gerar e Simular Mundos 3D

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Resumo

Support