ShowRoom3D: Tekst naar hoogwaardige 3D-ruimtegeneratie met behulp van 3D-priors
ShowRoom3D: Text to High-Quality 3D Room Generation Using 3D Priors
December 20, 2023
Auteurs: Weijia Mao, Yan-Pei Cao, Jia-Wei Liu, Zhongcong Xu, Mike Zheng Shou
cs.AI
Samenvatting
We introduceren ShowRoom3D, een driedelige aanpak voor het genereren van hoogwaardige 3D kamer-schaal scènes vanuit tekst. Eerdere methoden die 2D diffusie-priors gebruiken om neurale stralingsvelden te optimaliseren voor het genereren van kamer-schaal scènes, hebben onbevredigende kwaliteit laten zien. Dit wordt voornamelijk toegeschreven aan de beperkingen van 2D priors die geen 3D-bewustzijn hebben en aan beperkingen in de trainingsmethodologie. In dit artikel maken we gebruik van een 3D diffusie-prior, MVDiffusion, om de 3D kamer-schaal scène te optimaliseren. Onze bijdragen liggen op twee vlakken. Ten eerste stellen we een progressief view-selectieproces voor om NeRF te optimaliseren. Dit houdt in dat het trainingsproces in drie fasen wordt verdeeld, waarbij het camerabemonsteringsbereik geleidelijk wordt uitgebreid. Ten tweede introduceren we de pose-transformatiemethode in de tweede fase. Dit zorgt ervoor dat MVDiffusion nauwkeurige view-begeleiding biedt. Als resultaat maakt ShowRoom3D het mogelijk om kamers te genereren met verbeterde structurele integriteit, verhoogde helderheid vanuit elk gezichtspunt, verminderde inhoudsherhaling en hogere consistentie over verschillende perspectieven. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art benaderingen aanzienlijk overtreft met een grote marge in termen van gebruikersstudies.
English
We introduce ShowRoom3D, a three-stage approach for generating high-quality
3D room-scale scenes from texts. Previous methods using 2D diffusion priors to
optimize neural radiance fields for generating room-scale scenes have shown
unsatisfactory quality. This is primarily attributed to the limitations of 2D
priors lacking 3D awareness and constraints in the training methodology. In
this paper, we utilize a 3D diffusion prior, MVDiffusion, to optimize the 3D
room-scale scene. Our contributions are in two aspects. Firstly, we propose a
progressive view selection process to optimize NeRF. This involves dividing the
training process into three stages, gradually expanding the camera sampling
scope. Secondly, we propose the pose transformation method in the second stage.
It will ensure MVDiffusion provide the accurate view guidance. As a result,
ShowRoom3D enables the generation of rooms with improved structural integrity,
enhanced clarity from any view, reduced content repetition, and higher
consistency across different perspectives. Extensive experiments demonstrate
that our method, significantly outperforms state-of-the-art approaches by a
large margin in terms of user study.