HiFA: High-fidelity tekst-naar-3D met geavanceerde diffusiebegeleiding
HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance
May 30, 2023
Auteurs: Joseph Zhu, Peiye Zhuang
cs.AI
Samenvatting
Automatische tekst-naar-3D-synthese heeft opmerkelijke vooruitgang geboekt door de optimalisatie van 3D-modellen. Bestaande methoden maken doorgaans gebruik van vooraf getrainde tekst-naar-beeld generatieve modellen, zoals diffusiemodellen, die scores leveren voor 2D-weergaven van Neural Radiance Fields (NeRFs) en worden gebruikt voor het optimaliseren van NeRFs. Deze methoden kampen echter vaak met artefacten en inconsistenties over meerdere aanzichten vanwege hun beperkte begrip van 3D-geometrie. Om deze beperkingen aan te pakken, stellen we een herformulering van de optimalisatiefout voor met behulp van de diffusieprior. Daarnaast introduceren we een nieuwe trainingsaanpak die het potentieel van de diffusieprior ontsluit. Om de 3D-geometrieweergave te verbeteren, passen we aanvullende dieptesupervisie toe voor NeRF-gegenereerde beelden en regulariseren we het dichtheidsveld van NeRFs. Uitgebreide experimenten tonen de superioriteit van onze methode aan ten opzichte van eerdere werken, wat resulteert in geavanceerde fotorealistische kwaliteit en verbeterde consistentie over meerdere aanzichten.
English
Automatic text-to-3D synthesis has achieved remarkable advancements through
the optimization of 3D models. Existing methods commonly rely on pre-trained
text-to-image generative models, such as diffusion models, providing scores for
2D renderings of Neural Radiance Fields (NeRFs) and being utilized for
optimizing NeRFs. However, these methods often encounter artifacts and
inconsistencies across multiple views due to their limited understanding of 3D
geometry. To address these limitations, we propose a reformulation of the
optimization loss using the diffusion prior. Furthermore, we introduce a novel
training approach that unlocks the potential of the diffusion prior. To improve
3D geometry representation, we apply auxiliary depth supervision for
NeRF-rendered images and regularize the density field of NeRFs. Extensive
experiments demonstrate the superiority of our method over prior works,
resulting in advanced photo-realism and improved multi-view consistency.