Map2World: Генерация 3D-мира на основе текста с условием в виде сегментированной карты

Аннотация

Генерация 3D-мира крайне важна для таких приложений, как создание иммерсивного контента или симуляция автономного вождения. Последние достижения в области генерации 3D-миров показали обнадеживающие результаты; однако эти методы ограничены сеточными структурами и страдают от несоответствий в масштабе объектов во всем мире. В данной работе мы представляем новую систему Map2World, которая впервые позволяет генерировать 3D-мир на основе задаваемых пользователем сегментных карт произвольной формы и масштаба, обеспечивая глобальную согласованность масштаба и гибкость в обширных средах. Для дальнейшего повышения качества мы предлагаем сеть-усилитель деталей, которая генерирует мелкие детали мира. Усилитель деталей позволяет добавлять детализированные элементы без ущерба для общей согласованности сцены за счет включения информации о глобальной структуре. Мы разработали весь конвейер для использования строгих априорных данных от генераторов ассетов, достигая надежного обобщения в различных областях даже при ограниченных данных для обучения генерации сцен. Многочисленные эксперименты демонстрируют, что наш метод значительно превосходит существующие подходы по управляемости пользователем, согласованности масштаба и связности контента, позволяя пользователям генерировать 3D-миры в более сложных условиях.

English

3D world generation is essential for applications such as immersive content creation or autonomous driving simulation. Recent advances in 3D world generation have shown promising results; however, these methods are constrained by grid layouts and suffer from inconsistencies in object scale throughout the entire world. In this work, we introduce a novel framework, Map2World, that first enables 3D world generation conditioned on user-defined segment maps of arbitrary shapes and scales, ensuring global-scale consistency and flexibility across expansive environments. To further enhance the quality, we propose a detail enhancer network that generates fine details of the world. The detail enhancer enables the addition of fine-grained details without compromising overall scene coherence by incorporating global structure information. We design the entire pipeline to leverage strong priors from asset generators, achieving robust generalization across diverse domains, even under limited training data for scene generation. Extensive experiments demonstrate that our method significantly outperforms existing approaches in user-controllability, scale consistency, and content coherence, enabling users to generate 3D worlds under more complex conditions.

Map2World: Генерация 3D-мира на основе текста с условием в виде сегментированной карты

Map2World: Segment Map Conditioned Text to 3D World Generation

Аннотация

Support