ShowRoom3D : Génération de pièces 3D de haute qualité à partir de texte en utilisant des connaissances préalables 3D
ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors
December 20, 2023
Auteurs: Weijia Mao, Yan-Pei Cao, Jia-Wei Liu, Zhongcong Xu, Mike Zheng Shou
cs.AI
Résumé
Nous présentons ShowRoom3D, une approche en trois étapes pour générer des scènes 3D à l'échelle d'une pièce de haute qualité à partir de textes. Les méthodes précédentes utilisant des préalables de diffusion 2D pour optimiser les champs de radiance neuronaux (NeRF) afin de générer des scènes à l'échelle d'une pièce ont montré une qualité insatisfaisante. Cela est principalement attribué aux limitations des préalables 2D, qui manquent de conscience 3D, ainsi qu'aux contraintes dans la méthodologie d'entraînement. Dans cet article, nous utilisons un préalable de diffusion 3D, MVDiffusion, pour optimiser la scène 3D à l'échelle d'une pièce. Nos contributions se situent à deux niveaux. Premièrement, nous proposons un processus de sélection progressive des vues pour optimiser NeRF. Cela implique de diviser le processus d'entraînement en trois étapes, en élargissant progressivement la portée de l'échantillonnage des caméras. Deuxièmement, nous proposons une méthode de transformation de pose dans la deuxième étape. Cela garantira que MVDiffusion fournit un guidage de vue précis. En conséquence, ShowRoom3D permet la génération de pièces avec une intégrité structurelle améliorée, une clarté accrue depuis n'importe quelle vue, une répétition de contenu réduite et une cohérence plus élevée entre les différentes perspectives. Des expériences approfondies démontrent que notre méthode surpasse de manière significative les approches de pointe par une large marge en termes d'étude utilisateur.
English
We introduce ShowRoom3D, a three-stage approach for generating high-quality
3D room-scale scenes from texts. Previous methods using 2D diffusion priors to
optimize neural radiance fields for generating room-scale scenes have shown
unsatisfactory quality. This is primarily attributed to the limitations of 2D
priors lacking 3D awareness and constraints in the training methodology. In
this paper, we utilize a 3D diffusion prior, MVDiffusion, to optimize the 3D
room-scale scene. Our contributions are in two aspects. Firstly, we propose a
progressive view selection process to optimize NeRF. This involves dividing the
training process into three stages, gradually expanding the camera sampling
scope. Secondly, we propose the pose transformation method in the second stage.
It will ensure MVDiffusion provide the accurate view guidance. As a result,
ShowRoom3D enables the generation of rooms with improved structural integrity,
enhanced clarity from any view, reduced content repetition, and higher
consistency across different perspectives. Extensive experiments demonstrate
that our method, significantly outperforms state-of-the-art approaches by a
large margin in terms of user study.