SPATIALGEN: Генерация 3D-интерьеров на основе планировки
SPATIALGEN: Layout-guided 3D Indoor Scene Generation
September 18, 2025
Авторы: Chuan Fang, Heng Li, Yixun Liang, Jia Zheng, Yongsen Mao, Yuan Liu, Rui Tang, Zihan Zhou, Ping Tan
cs.AI
Аннотация
Создание высококачественных 3D-моделей интерьеров имеет ключевое значение для приложений в дизайне, виртуальной реальности и робототехнике. Однако ручное 3D-моделирование остается трудоемким и затратным по времени процессом. Хотя последние достижения в области генеративного ИИ позволили автоматизировать синтез сцен, существующие методы часто сталкиваются с трудностями в балансировке визуального качества, разнообразия, семантической согласованности и контроля со стороны пользователя. Основным ограничением является отсутствие крупномасштабного, высококачественного набора данных, адаптированного для этой задачи. Чтобы устранить этот пробел, мы представляем всеобъемлющий синтетический набор данных, включающий 12 328 структурированных аннотированных сцен с 57 440 комнатами и 4,7 млн фотореалистичных 2D-рендеров. Используя этот набор данных, мы представляем SpatialGen — новую многомодальную диффузионную модель с несколькими видами, которая генерирует реалистичные и семантически согласованные 3D-сцены интерьеров. На основе 3D-планировки и эталонного изображения (полученного из текстового запроса) наша модель синтезирует внешний вид (цветное изображение), геометрию (карта координат сцены) и семантику (карта семантической сегментации) с произвольных точек обзора, сохраняя пространственную согласованность между модальностями. SpatialGen демонстрирует стабильно превосходящие результаты по сравнению с предыдущими методами в наших экспериментах. Мы открываем доступ к нашим данным и моделям, чтобы поддержать сообщество и способствовать развитию области понимания и генерации интерьерных сцен.
English
Creating high-fidelity 3D models of indoor environments is essential for
applications in design, virtual reality, and robotics. However, manual 3D
modeling remains time-consuming and labor-intensive. While recent advances in
generative AI have enabled automated scene synthesis, existing methods often
face challenges in balancing visual quality, diversity, semantic consistency,
and user control. A major bottleneck is the lack of a large-scale, high-quality
dataset tailored to this task. To address this gap, we introduce a
comprehensive synthetic dataset, featuring 12,328 structured annotated scenes
with 57,440 rooms, and 4.7M photorealistic 2D renderings. Leveraging this
dataset, we present SpatialGen, a novel multi-view multi-modal diffusion model
that generates realistic and semantically consistent 3D indoor scenes. Given a
3D layout and a reference image (derived from a text prompt), our model
synthesizes appearance (color image), geometry (scene coordinate map), and
semantic (semantic segmentation map) from arbitrary viewpoints, while
preserving spatial consistency across modalities. SpatialGen consistently
generates superior results to previous methods in our experiments. We are
open-sourcing our data and models to empower the community and advance the
field of indoor scene understanding and generation.