ChatPaper.aiChatPaper

WorldGrow: Генерация бесконечного 3D-мира

WorldGrow: Generating Infinite 3D World

October 24, 2025
Авторы: Sikuang Li, Chen Yang, Jiemin Fang, Taoran Yi, Jia Lu, Jiazhong Cen, Lingxi Xie, Wei Shen, Qi Tian
cs.AI

Аннотация

Мы решаем задачу генерации бесконечно расширяемого 3D-мира — крупных, непрерывных сред с согласованной геометрией и реалистичным внешним видом. Существующие методы сталкиваются с ключевыми проблемами: подходы, поднимающие 2D в 3D, страдают от геометрической и визуальной несогласованности между видами, 3D-неявные представления сложно масштабировать, а современные 3D-фундаментальные модели в основном ориентированы на объекты, что ограничивает их применимость для генерации на уровне сцен. Наше ключевое прозрение заключается в использовании сильных априорных знаний генерации из предварительно обученных 3D-моделей для создания структурированных блоков сцены. С этой целью мы предлагаем WorldGrow, иерархическую структуру для синтеза неограниченных 3D-сцен. Наш метод включает три ключевых компонента: (1) конвейер подготовки данных, который извлекает высококачественные блоки сцен для обучения, делая структурированные 3D-латентные представления пригодными для генерации сцен; (2) механизм 3D-впечатывания блоков, который обеспечивает контекстно-зависимое расширение сцены; и (3) стратегию генерации от грубого к детальному, которая гарантирует как правдоподобие глобальной компоновки, так и точность локальной геометрии и текстуры. При оценке на крупном наборе данных 3D-FRONT, WorldGrow демонстрирует наилучшие результаты в реконструкции геометрии, одновременно уникальным образом поддерживая бесконечную генерацию сцен с фотореалистичным и структурно согласованным результатом. Эти результаты подчеркивают его способность к построению крупномасштабных виртуальных сред и потенциал для создания будущих моделей мира.
English
We tackle the challenge of generating the infinitely extendable 3D world -- large, continuous environments with coherent geometry and realistic appearance. Existing methods face key challenges: 2D-lifting approaches suffer from geometric and appearance inconsistencies across views, 3D implicit representations are hard to scale up, and current 3D foundation models are mostly object-centric, limiting their applicability to scene-level generation. Our key insight is leveraging strong generation priors from pre-trained 3D models for structured scene block generation. To this end, we propose WorldGrow, a hierarchical framework for unbounded 3D scene synthesis. Our method features three core components: (1) a data curation pipeline that extracts high-quality scene blocks for training, making the 3D structured latent representations suitable for scene generation; (2) a 3D block inpainting mechanism that enables context-aware scene extension; and (3) a coarse-to-fine generation strategy that ensures both global layout plausibility and local geometric/textural fidelity. Evaluated on the large-scale 3D-FRONT dataset, WorldGrow achieves SOTA performance in geometry reconstruction, while uniquely supporting infinite scene generation with photorealistic and structurally consistent outputs. These results highlight its capability for constructing large-scale virtual environments and potential for building future world models.
PDF423December 17, 2025