ShowRoom3D: Generación de Habitaciones 3D de Alta Calidad a partir de Texto utilizando Priors 3D
ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors
December 20, 2023
Autores: Weijia Mao, Yan-Pei Cao, Jia-Wei Liu, Zhongcong Xu, Mike Zheng Shou
cs.AI
Resumen
Presentamos ShowRoom3D, un enfoque de tres etapas para generar escenas 3D de alta calidad a escala de habitación a partir de textos. Métodos anteriores que utilizan priores de difusión 2D para optimizar campos de radiancia neural (NeRF) en la generación de escenas a escala de habitación han mostrado una calidad insatisfactoria. Esto se atribuye principalmente a las limitaciones de los priores 2D, que carecen de conciencia 3D, y a las restricciones en la metodología de entrenamiento. En este trabajo, utilizamos un prior de difusión 3D, MVDiffusion, para optimizar la escena 3D a escala de habitación. Nuestras contribuciones se centran en dos aspectos. En primer lugar, proponemos un proceso de selección de vistas progresivo para optimizar NeRF. Esto implica dividir el proceso de entrenamiento en tres etapas, expandiendo gradualmente el alcance del muestreo de cámaras. En segundo lugar, proponemos un método de transformación de poses en la segunda etapa, que garantiza que MVDiffusion proporcione una guía de vistas precisa. Como resultado, ShowRoom3D permite la generación de habitaciones con una integridad estructural mejorada, mayor claridad desde cualquier vista, reducción de la repetición de contenido y una mayor coherencia entre diferentes perspectivas. Experimentos exhaustivos demuestran que nuestro método supera significativamente a los enfoques más avanzados en términos de estudios de usuario.
English
We introduce ShowRoom3D, a three-stage approach for generating high-quality
3D room-scale scenes from texts. Previous methods using 2D diffusion priors to
optimize neural radiance fields for generating room-scale scenes have shown
unsatisfactory quality. This is primarily attributed to the limitations of 2D
priors lacking 3D awareness and constraints in the training methodology. In
this paper, we utilize a 3D diffusion prior, MVDiffusion, to optimize the 3D
room-scale scene. Our contributions are in two aspects. Firstly, we propose a
progressive view selection process to optimize NeRF. This involves dividing the
training process into three stages, gradually expanding the camera sampling
scope. Secondly, we propose the pose transformation method in the second stage.
It will ensure MVDiffusion provide the accurate view guidance. As a result,
ShowRoom3D enables the generation of rooms with improved structural integrity,
enhanced clarity from any view, reduced content repetition, and higher
consistency across different perspectives. Extensive experiments demonstrate
that our method, significantly outperforms state-of-the-art approaches by a
large margin in terms of user study.