Имаджинариум: Генерация высококачественных 3D-сцен с использованием визуального руководства
Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation
October 17, 2025
Авторы: Xiaoming Zhu, Xu Huang, Qinghongbing Xie, Zhi Deng, Junsheng Yu, Yirui Guan, Zhongyuan Liu, Lin Zhu, Qijun Zhao, Ligang Liu, Long Zeng
cs.AI
Аннотация
Создание художественных и согласованных 3D-сцен является ключевым аспектом в цифровом контенте. Традиционные методы, основанные на оптимизации, часто ограничены громоздкими ручными правилами, в то время как глубокие генеративные модели сталкиваются с трудностями в создании контента, обладающего богатством и разнообразием. Кроме того, подходы, использующие крупные языковые модели, часто недостаточно устойчивы и не способны точно улавливать сложные пространственные отношения. Для решения этих проблем в данной статье представлена новая система генерации 3D-сцен, основанная на визуальном руководстве. Сначала мы создаем высококачественную библиотеку ресурсов, содержащую 2037 объектов сцен и 147 3D-сцен. Затем мы используем модель генерации изображений для расширения текстовых описаний до изображений, дорабатывая ее для соответствия нашей библиотеке ресурсов. После этого мы разрабатываем надежный модуль анализа изображений для восстановления 3D-структуры сцен на основе визуальной семантики и геометрической информации. Наконец, мы оптимизируем структуру сцены с использованием графов сцен и общей визуальной семантики, чтобы обеспечить логическую согласованность и соответствие изображениям. Обширное тестирование пользователями показывает, что наш алгоритм значительно превосходит существующие методы по богатству и качеству сцен. Код и набор данных будут доступны по адресу https://github.com/HiHiAllen/Imaginarium.
English
Generating artistic and coherent 3D scene layouts is crucial in digital
content creation. Traditional optimization-based methods are often constrained
by cumbersome manual rules, while deep generative models face challenges in
producing content with richness and diversity. Furthermore, approaches that
utilize large language models frequently lack robustness and fail to accurately
capture complex spatial relationships. To address these challenges, this paper
presents a novel vision-guided 3D layout generation system. We first construct
a high-quality asset library containing 2,037 scene assets and 147 3D scene
layouts. Subsequently, we employ an image generation model to expand prompt
representations into images, fine-tuning it to align with our asset library. We
then develop a robust image parsing module to recover the 3D layout of scenes
based on visual semantics and geometric information. Finally, we optimize the
scene layout using scene graphs and overall visual semantics to ensure logical
coherence and alignment with the images. Extensive user testing demonstrates
that our algorithm significantly outperforms existing methods in terms of
layout richness and quality. The code and dataset will be available at
https://github.com/HiHiAllen/Imaginarium.