ChatPaper.aiChatPaper

ShowRoom3D: Генерация высококачественных 3D-комнат из текста с использованием 3D-приоров

ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors

December 20, 2023
Авторы: Weijia Mao, Yan-Pei Cao, Jia-Wei Liu, Zhongcong Xu, Mike Zheng Shou
cs.AI

Аннотация

Мы представляем ShowRoom3D — трехэтапный подход для генерации высококачественных 3D-сцен комнатного масштаба на основе текстов. Предыдущие методы, использующие 2D диффузионные априори для оптимизации нейронных полей излучения (NeRF) при создании сцен комнатного масштаба, демонстрировали неудовлетворительное качество. Это в первую очередь связано с ограничениями 2D априори, которые не учитывают трехмерную структуру, а также с ограничениями в методологии обучения. В данной работе мы используем 3D диффузионный априор, MVDiffusion, для оптимизации 3D-сцен комнатного масштаба. Наш вклад заключается в двух аспектах. Во-первых, мы предлагаем прогрессивный процесс выбора ракурсов для оптимизации NeRF. Это включает разделение процесса обучения на три этапа с постепенным расширением области выборки камер. Во-вторых, мы предлагаем метод преобразования поз на втором этапе. Это обеспечивает точное руководство по выбору ракурсов со стороны MVDiffusion. В результате ShowRoom3D позволяет генерировать комнаты с улучшенной структурной целостностью, повышенной четкостью с любого ракурса, уменьшенным повторением контента и более высокой согласованностью между различными перспективами. Многочисленные эксперименты демонстрируют, что наш метод значительно превосходит современные подходы с большим отрывом по результатам пользовательских исследований.
English
We introduce ShowRoom3D, a three-stage approach for generating high-quality 3D room-scale scenes from texts. Previous methods using 2D diffusion priors to optimize neural radiance fields for generating room-scale scenes have shown unsatisfactory quality. This is primarily attributed to the limitations of 2D priors lacking 3D awareness and constraints in the training methodology. In this paper, we utilize a 3D diffusion prior, MVDiffusion, to optimize the 3D room-scale scene. Our contributions are in two aspects. Firstly, we propose a progressive view selection process to optimize NeRF. This involves dividing the training process into three stages, gradually expanding the camera sampling scope. Secondly, we propose the pose transformation method in the second stage. It will ensure MVDiffusion provide the accurate view guidance. As a result, ShowRoom3D enables the generation of rooms with improved structural integrity, enhanced clarity from any view, reduced content repetition, and higher consistency across different perspectives. Extensive experiments demonstrate that our method, significantly outperforms state-of-the-art approaches by a large margin in terms of user study.
PDF111December 15, 2024