HY-World 2.0: Мультимодальная модель мира для реконструкции, генерации и симуляции 3D-пространств

Аннотация

Мы представляем HY-World 2.0 — многомодальную фреймворк-модель мира, которая развивает наш предыдущий проект HY-World 1.0. HY-World 2.0 поддерживает разнообразные входные модальности, включая текстовые промпты, одноракурсные изображения, многовидовые изображения и видео, и генерирует 3D-репрезентации мира. При текстовых или одноракурсных входных данных модель выполняет генерацию мира, синтезируя высокодетализированные, навигируемые сцены методом 3D Gaussian Splatting (3DGS). Это достигается с помощью четырёхэтапного метода: a) Генерация панорам с HY-Pano 2.0, b) Планирование траектории с WorldNav, c) Экспансия мира с WorldStereo 2.0 и d) Композиция мира с WorldMirror 2.0. В частности, мы внедряем ключевые инновации для повышения точности панорам, обеспечения 3D-понимания и планирования сцены, а также модернизируем WorldStereo — нашу модель генерации видов на основе ключевых кадров с согласованной памятью. Мы также улучшаем WorldMirror, прямую модель для универсального 3D-прогнозирования, путём усовершенствования архитектуры модели и стратегии обучения, что позволяет реконструировать мир из многовидовых изображений или видео. Кроме того, мы представляем WorldLens — высокопроизводительную платформу рендеринга 3DGS, обладающую гибкой engine-агностической архитектурой, автоматическим IBL-освещением, эффективным обнаружением столкновений и совместным проектированием обучения и рендеринга, что обеспечивает интерактивное исследование 3D-миров с поддержкой персонажей. Многочисленные эксперименты демонстрируют, что HY-World 2.0 достигает передовой производительности на нескольких бенчмарках среди подходов с открытым исходным кодом, обеспечивая результаты, сопоставимые с закрытой моделью Marble. Мы публикуем все веса моделей, код и технические детали для обеспечения воспроизводимости и поддержки дальнейших исследований в области 3D-моделей мира.

English

We introduce HY-World 2.0, a multi-modal world model framework that advances our prior project HY-World 1.0. HY-World 2.0 accommodates diverse input modalities, including text prompts, single-view images, multi-view images, and videos, and produces 3D world representations. With text or single-view image inputs, the model performs world generation, synthesizing high-fidelity, navigable 3D Gaussian Splatting (3DGS) scenes. This is achieved through a four-stage method: a) Panorama Generation with HY-Pano 2.0, b) Trajectory Planning with WorldNav, c) World Expansion with WorldStereo 2.0, and d) World Composition with WorldMirror 2.0. Specifically, we introduce key innovations to enhance panorama fidelity, enable 3D scene understanding and planning, and upgrade WorldStereo, our keyframe-based view generation model with consistent memory. We also upgrade WorldMirror, a feed-forward model for universal 3D prediction, by refining model architecture and learning strategy, enabling world reconstruction from multi-view images or videos. Also, we introduce WorldLens, a high-performance 3DGS rendering platform featuring a flexible engine-agnostic architecture, automatic IBL lighting, efficient collision detection, and training-rendering co-design, enabling interactive exploration of 3D worlds with character support. Extensive experiments demonstrate that HY-World 2.0 achieves state-of-the-art performance on several benchmarks among open-source approaches, delivering results comparable to the closed-source model Marble. We release all model weights, code, and technical details to facilitate reproducibility and support further research on 3D world models.

HY-World 2.0: Мультимодальная модель мира для реконструкции, генерации и симуляции 3D-пространств

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Аннотация

Support