HiFA: Geração de Texto para 3D de Alta Fidelidade com Orientação Avançada por Difusão
HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance
May 30, 2023
Autores: Joseph Zhu, Peiye Zhuang
cs.AI
Resumo
A síntese automática de texto para 3D alcançou avanços notáveis por meio da otimização de modelos 3D. Os métodos existentes geralmente dependem de modelos generativos de texto para imagem pré-treinados, como modelos de difusão, que fornecem pontuações para renderizações 2D de Campos de Radiação Neural (NeRFs) e são utilizados para otimizar NeRFs. No entanto, esses métodos frequentemente encontram artefatos e inconsistências em múltiplas visões devido à sua compreensão limitada da geometria 3D. Para abordar essas limitações, propomos uma reformulação da função de perda de otimização utilizando o prior de difusão. Além disso, introduzimos uma nova abordagem de treinamento que desbloqueia o potencial do prior de difusão. Para melhorar a representação da geometria 3D, aplicamos supervisão auxiliar de profundidade para imagens renderizadas por NeRF e regularizamos o campo de densidade dos NeRFs. Experimentos extensivos demonstram a superioridade do nosso método em relação a trabalhos anteriores, resultando em um foto-realismo avançado e uma consistência multi-visão aprimorada.
English
Automatic text-to-3D synthesis has achieved remarkable advancements through
the optimization of 3D models. Existing methods commonly rely on pre-trained
text-to-image generative models, such as diffusion models, providing scores for
2D renderings of Neural Radiance Fields (NeRFs) and being utilized for
optimizing NeRFs. However, these methods often encounter artifacts and
inconsistencies across multiple views due to their limited understanding of 3D
geometry. To address these limitations, we propose a reformulation of the
optimization loss using the diffusion prior. Furthermore, we introduce a novel
training approach that unlocks the potential of the diffusion prior. To improve
3D geometry representation, we apply auxiliary depth supervision for
NeRF-rendered images and regularize the density field of NeRFs. Extensive
experiments demonstrate the superiority of our method over prior works,
resulting in advanced photo-realism and improved multi-view consistency.