HiFA: Geração de Texto para 3D de Alta Fidelidade com Orientação Avançada por Difusão

Resumo

A síntese automática de texto para 3D alcançou avanços notáveis por meio da otimização de modelos 3D. Os métodos existentes geralmente dependem de modelos generativos de texto para imagem pré-treinados, como modelos de difusão, que fornecem pontuações para renderizações 2D de Campos de Radiação Neural (NeRFs) e são utilizados para otimizar NeRFs. No entanto, esses métodos frequentemente encontram artefatos e inconsistências em múltiplas visões devido à sua compreensão limitada da geometria 3D. Para abordar essas limitações, propomos uma reformulação da função de perda de otimização utilizando o prior de difusão. Além disso, introduzimos uma nova abordagem de treinamento que desbloqueia o potencial do prior de difusão. Para melhorar a representação da geometria 3D, aplicamos supervisão auxiliar de profundidade para imagens renderizadas por NeRF e regularizamos o campo de densidade dos NeRFs. Experimentos extensivos demonstram a superioridade do nosso método em relação a trabalhos anteriores, resultando em um foto-realismo avançado e uma consistência multi-visão aprimorada.

English

Automatic text-to-3D synthesis has achieved remarkable advancements through the optimization of 3D models. Existing methods commonly rely on pre-trained text-to-image generative models, such as diffusion models, providing scores for 2D renderings of Neural Radiance Fields (NeRFs) and being utilized for optimizing NeRFs. However, these methods often encounter artifacts and inconsistencies across multiple views due to their limited understanding of 3D geometry. To address these limitations, we propose a reformulation of the optimization loss using the diffusion prior. Furthermore, we introduce a novel training approach that unlocks the potential of the diffusion prior. To improve 3D geometry representation, we apply auxiliary depth supervision for NeRF-rendered images and regularize the density field of NeRFs. Extensive experiments demonstrate the superiority of our method over prior works, resulting in advanced photo-realism and improved multi-view consistency.

HiFA: Geração de Texto para 3D de Alta Fidelidade com Orientação Avançada por Difusão

HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance

Resumo

Support