HY-World 2.0 : Un modèle de monde multimodal pour la reconstruction, la génération et la simulation de mondes 3D

Résumé

Nous présentons HY-World 2.0, un cadre de modèle de monde multimodal qui fait progresser notre projet antérieur HY-World 1.0. HY-World 2.0 prend en charge diverses modalités d'entrée, incluant des invites textuelles, des images monoculaires, des images multivues et des vidéos, et produit des représentations du monde en 3D. Avec des entrées textuelles ou des images monoculaires, le modèle effectue une génération de monde, synthétisant des scènes navigables et de haute fidélité utilisant la technique de *Gaussian Splatting* 3D (3DGS). Ceci est réalisé grâce à une méthode en quatre étapes : a) Génération de Panorama avec HY-Pano 2.0, b) Planification de Trajectoire avec WorldNav, c) Expansion du Monde avec WorldStereo 2.0, et d) Composition du Monde avec WorldMirror 2.0. Plus précisément, nous introduisons des innovations clés pour améliorer la fidélité des panoramas, permettre la compréhension et la planification de scènes 3D, et améliorer WorldStereo, notre modèle de génération de vues basé sur des images clés avec une mémoire cohérente. Nous améliorons également WorldMirror, un modèle feed-forward pour la prédiction 3D universelle, en affinant l'architecture du modèle et la stratégie d'apprentissage, permettant la reconstruction du monde à partir d'images multivues ou de vidéos. De plus, nous introduisons WorldLens, une plateforme de rendu 3DGS haute performance dotée d'une architecture flexible indépendante du moteur, d'un éclairage IBL automatique, d'une détection de collision efficace et d'une co-conception entraînement-rendu, permettant l'exploration interactive de mondes 3D avec prise en charge des personnages. Des expériences approfondies démontrent qu'HY-World 2.0 atteint des performances de pointe sur plusieurs benchmarks parmi les approches open-source, fournissant des résultats comparables au modèle fermé Marble. Nous publions tous les poids des modèles, le code et les détails techniques pour faciliter la reproductibilité et soutenir les recherches futures sur les modèles de monde 3D.

English

We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.

HY-World 2.0 : Un modèle de monde multimodal pour la reconstruction, la génération et la simulation de mondes 3D

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Résumé

Support