HiFA: Hochpräzises Text-zu-3D mit fortschrittlicher Diffusionssteuerung
HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance
May 30, 2023
Autoren: Joseph Zhu, Peiye Zhuang
cs.AI
Zusammenfassung
Die automatische Text-zu-3D-Synthese hat durch die Optimierung von 3D-Modellen bemerkenswerte Fortschritte erzielt. Bestehende Methoden stützen sich häufig auf vortrainierte Text-zu-Bild-Generierungsmodelle, wie beispielsweise Diffusionsmodelle, die Bewertungen für 2D-Renderings von Neural Radiance Fields (NeRFs) liefern und zur Optimierung von NeRFs genutzt werden. Diese Methoden stoßen jedoch oft auf Artefakte und Inkonsistenzen über mehrere Ansichten hinweg, da ihr Verständnis der 3D-Geometrie begrenzt ist. Um diese Einschränkungen zu überwinden, schlagen wir eine Neuformulierung des Optimierungsverlusts unter Verwendung des Diffusionspriors vor. Darüber hinaus führen wir einen neuartigen Trainingsansatz ein, der das Potenzial des Diffusionspriors freisetzt. Um die Darstellung der 3D-Geometrie zu verbessern, wenden wir eine zusätzliche Tiefenüberwachung für NeRF-gerenderte Bilder an und regularisieren das Dichtefeld von NeRFs. Umfangreiche Experimente demonstrieren die Überlegenheit unserer Methode gegenüber früheren Arbeiten, was zu einem fortgeschrittenen Fotorealismus und einer verbesserten Mehransichtskonsistenz führt.
English
Automatic text-to-3D synthesis has achieved remarkable advancements through
the optimization of 3D models. Existing methods commonly rely on pre-trained
text-to-image generative models, such as diffusion models, providing scores for
2D renderings of Neural Radiance Fields (NeRFs) and being utilized for
optimizing NeRFs. However, these methods often encounter artifacts and
inconsistencies across multiple views due to their limited understanding of 3D
geometry. To address these limitations, we propose a reformulation of the
optimization loss using the diffusion prior. Furthermore, we introduce a novel
training approach that unlocks the potential of the diffusion prior. To improve
3D geometry representation, we apply auxiliary depth supervision for
NeRF-rendered images and regularize the density field of NeRFs. Extensive
experiments demonstrate the superiority of our method over prior works,
resulting in advanced photo-realism and improved multi-view consistency.