ChatPaper.aiChatPaper

ShowRoom3D: Geração de Salas 3D de Alta Qualidade a partir de Texto Utilizando Priors 3D

ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors

December 20, 2023
Autores: Weijia Mao, Yan-Pei Cao, Jia-Wei Liu, Zhongcong Xu, Mike Zheng Shou
cs.AI

Resumo

Apresentamos o ShowRoom3D, uma abordagem em três estágios para a geração de cenas em escala de sala 3D de alta qualidade a partir de textos. Métodos anteriores que utilizam priors de difusão 2D para otimizar campos de radiação neural (NeRF) na geração de cenas em escala de sala têm mostrado qualidade insatisfatória. Isso é atribuído principalmente às limitações dos priors 2D, que carecem de consciência 3D, e às restrições na metodologia de treinamento. Neste artigo, utilizamos um prior de difusão 3D, o MVDiffusion, para otimizar a cena em escala de sala 3D. Nossas contribuições são em dois aspectos. Primeiramente, propomos um processo de seleção progressiva de visões para otimizar o NeRF. Isso envolve dividir o processo de treinamento em três estágios, expandindo gradualmente o escopo de amostragem da câmera. Em segundo lugar, propomos o método de transformação de pose no segundo estágio. Ele garantirá que o MVDiffusion forneça uma orientação precisa de visão. Como resultado, o ShowRoom3D possibilita a geração de salas com integridade estrutural aprimorada, clareza melhorada em qualquer visão, redução da repetição de conteúdo e maior consistência entre diferentes perspectivas. Experimentos extensivos demonstram que nosso método supera significativamente as abordagens state-of-the-art por uma grande margem em termos de estudo com usuários.
English
We introduce ShowRoom3D, a three-stage approach for generating high-quality 3D room-scale scenes from texts. Previous methods using 2D diffusion priors to optimize neural radiance fields for generating room-scale scenes have shown unsatisfactory quality. This is primarily attributed to the limitations of 2D priors lacking 3D awareness and constraints in the training methodology. In this paper, we utilize a 3D diffusion prior, MVDiffusion, to optimize the 3D room-scale scene. Our contributions are in two aspects. Firstly, we propose a progressive view selection process to optimize NeRF. This involves dividing the training process into three stages, gradually expanding the camera sampling scope. Secondly, we propose the pose transformation method in the second stage. It will ensure MVDiffusion provide the accurate view guidance. As a result, ShowRoom3D enables the generation of rooms with improved structural integrity, enhanced clarity from any view, reduced content repetition, and higher consistency across different perspectives. Extensive experiments demonstrate that our method, significantly outperforms state-of-the-art approaches by a large margin in terms of user study.
PDF111December 15, 2024