HY-World 2.0: Een Multimodaal Wereldmodel voor het Reconstrueren, Genereren en Simuleren van 3D-Werelden

Samenvatting

Wij introduceren HY-World 2.0, een multimodale wereldmodel-framework dat een verbetering vormt van ons vorige project HY-World 1.0. HY-World 2.0 verwerkt diverse invoermodaliteiten, waaronder tekstprompts, afbeeldingen met één gezichtspunt, afbeeldingen met meerdere gezichtspunten en video's, en produceert 3D-wereldrepresentaties. Bij invoer van tekst of afbeeldingen met één gezichtspunt voert het model wereldgeneratie uit, waarbij het hoogwaardige, navigeerbare 3D Gaussian Splatting (3DGS)-scènes synthetiseert. Dit wordt bereikt via een viertrapsmethode: a) Panoramageneratie met HY-Pano 2.0, b) Trajectplanning met WorldNav, c) Werelduitbreiding met WorldStereo 2.0, en d) Wereldsamenstelling met WorldMirror 2.0. Specifiek introduceren we belangrijke innovaties om de panoramakwaliteit te verbeteren, 3D-scènebegrip en -planning mogelijk te maken, en WorldStereo, ons op keyframes gebaseerde viewgeneratiemodel met consistent geheugen, te upgraden. We upgraden ook WorldMirror, een feedforward-model voor universele 3D-voorspelling, door de modelarchitectuur en leerstrategie te verfijnen, waardoor wereldreconstructie vanuit meerdere gezichtspunten of video's mogelijk wordt. Tevens introduceren we WorldLens, een hoogwaardig 3DGS-renderplatform met een flexibele engine-onafhankelijke architectuur, automatische IBL-verlichting, efficiënte botsingsdetectie en een co-design voor training en rendering, dat interactieve verkenning van 3D-werelden met karakterondersteuning mogelijk maakt. Uitgebreide experimenten tonen aan dat HY-World 2.0 state-of-the-art prestaties bereikt op verschillende benchmarks binnen open-source benaderingen, met resultaten die vergelijkbaar zijn met het closed-source model Marble. We maken alle modelgewichten, code en technische details openbaar om reproduceerbaarheid te vergemakkelijken en verder onderzoek naar 3D-wereldmodellen te ondersteunen.

English

We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.

HY-World 2.0: Een Multimodaal Wereldmodel voor het Reconstrueren, Genereren en Simuleren van 3D-Werelden

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Samenvatting

Support