ShowRoom3D: Text zu hochwertiger 3D-Raumgenerierung unter Verwendung von 3D-Priors
ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors
December 20, 2023
Autoren: Weijia Mao, Yan-Pei Cao, Jia-Wei Liu, Zhongcong Xu, Mike Zheng Shou
cs.AI
Zusammenfassung
Wir stellen ShowRoom3D vor, einen dreistufigen Ansatz zur Erzeugung hochwertiger 3D-Raumszenen aus Texten. Bisherige Methoden, die 2D-Diffusions-Priors zur Optimierung von Neural Radiance Fields (NeRF) für die Generierung von Raumszenen verwenden, haben unbefriedigende Qualität gezeigt. Dies ist hauptsächlich auf die Einschränkungen von 2D-Priors zurückzuführen, denen das 3D-Bewusstsein fehlt, sowie auf Beschränkungen in der Trainingsmethodik. In diesem Artikel nutzen wir einen 3D-Diffusions-Prior, MVDiffusion, um die 3D-Raumszene zu optimieren. Unsere Beiträge liegen in zwei Aspekten. Erstens schlagen wir einen progressiven Ansatz zur Auswahl von Ansichten vor, um NeRF zu optimieren. Dabei wird der Trainingsprozess in drei Stufen unterteilt, wobei der Bereich der Kamerastichproben schrittweise erweitert wird. Zweitens schlagen wir eine Pose-Transformationsmethode in der zweiten Stufe vor. Diese stellt sicher, dass MVDiffusion präzise Ansichtsanleitungen liefert. Als Ergebnis ermöglicht ShowRoom3D die Erzeugung von Räumen mit verbesserter struktureller Integrität, gesteigerter Klarheit aus jeder Perspektive, reduzierter Inhaltswiederholung und höherer Konsistenz über verschiedene Blickwinkel hinweg. Umfangreiche Experimente zeigen, dass unsere Methode in Bezug auf Benutzerstudien die aktuellsten Ansätze deutlich übertrifft.
English
We introduce ShowRoom3D, a three-stage approach for generating high-quality
3D room-scale scenes from texts. Previous methods using 2D diffusion priors to
optimize neural radiance fields for generating room-scale scenes have shown
unsatisfactory quality. This is primarily attributed to the limitations of 2D
priors lacking 3D awareness and constraints in the training methodology. In
this paper, we utilize a 3D diffusion prior, MVDiffusion, to optimize the 3D
room-scale scene. Our contributions are in two aspects. Firstly, we propose a
progressive view selection process to optimize NeRF. This involves dividing the
training process into three stages, gradually expanding the camera sampling
scope. Secondly, we propose the pose transformation method in the second stage.
It will ensure MVDiffusion provide the accurate view guidance. As a result,
ShowRoom3D enables the generation of rooms with improved structural integrity,
enhanced clarity from any view, reduced content repetition, and higher
consistency across different perspectives. Extensive experiments demonstrate
that our method, significantly outperforms state-of-the-art approaches by a
large margin in terms of user study.