DreamPolish: Destilação de Pontuação de Domínio com Geração Geométrica Progressiva
DreamPolish: Domain Score Distillation With Progressive Geometry Generation
November 3, 2024
Autores: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI
Resumo
Apresentamos o DreamPolish, um modelo de geração de texto para 3D que se destaca na produção de geometria refinada e texturas de alta qualidade. Na fase de construção da geometria, nossa abordagem utiliza múltiplas representações neurais para aprimorar a estabilidade do processo de síntese. Em vez de depender exclusivamente de uma priorização de difusão condicionada à visualização nas novas visualizações amostradas, o que frequentemente resulta em artefatos indesejados na superfície geométrica, incorporamos um estimador normal adicional para polir os detalhes da geometria, condicionado a pontos de vista com campos de visão variados. Propomos adicionar uma etapa de polimento de superfície com apenas algumas etapas de treinamento, que pode refinar efetivamente os artefatos atribuídos à orientação limitada das etapas anteriores e produzir objetos 3D com geometria mais desejável. O tópico-chave da geração de textura usando modelos pré-treinados de texto para imagem é encontrar um domínio adequado na vasta distribuição latente desses modelos que contenha renderizações fotorrealistas e consistentes. Na fase de geração de textura, introduzimos um novo objetivo de destilação de pontuação, denominado destilação de pontuação de domínio (DSD), para orientar as representações neurais em direção a esse domínio. Nos inspiramos na orientação sem classificador (CFG) em tarefas de geração de imagem condicionadas a texto e mostramos que CFG e orientação de distribuição variacional representam aspectos distintos na orientação de gradiente e são ambos domínios imperativos para o aprimoramento da qualidade da textura. Experimentos extensos mostram que nosso modelo proposto pode produzir ativos 3D com superfícies polidas e texturas fotorrealistas, superando os métodos existentes de ponta.
English
We introduce DreamPolish, a text-to-3D generation model that excels in
producing refined geometry and high-quality textures. In the geometry
construction phase, our approach leverages multiple neural representations to
enhance the stability of the synthesis process. Instead of relying solely on a
view-conditioned diffusion prior in the novel sampled views, which often leads
to undesired artifacts in the geometric surface, we incorporate an additional
normal estimator to polish the geometry details, conditioned on viewpoints with
varying field-of-views. We propose to add a surface polishing stage with only a
few training steps, which can effectively refine the artifacts attributed to
limited guidance from previous stages and produce 3D objects with more
desirable geometry. The key topic of texture generation using pretrained
text-to-image models is to find a suitable domain in the vast latent
distribution of these models that contains photorealistic and consistent
renderings. In the texture generation phase, we introduce a novel score
distillation objective, namely domain score distillation (DSD), to guide neural
representations toward such a domain. We draw inspiration from the
classifier-free guidance (CFG) in textconditioned image generation tasks and
show that CFG and variational distribution guidance represent distinct aspects
in gradient guidance and are both imperative domains for the enhancement of
texture quality. Extensive experiments show our proposed model can produce 3D
assets with polished surfaces and photorealistic textures, outperforming
existing state-of-the-art methods.Summary
AI-Generated Summary