DreamPolish: Destilación de Puntuación de Dominio con Generación Geométrica Progresiva
DreamPolish: Domain Score Distillation With Progressive Geometry Generation
November 3, 2024
Autores: Yean Cheng, Ziqi Cai, Ming Ding, Wendi Zheng, Shiyu Huang, Yuxiao Dong, Jie Tang, Boxin Shi
cs.AI
Resumen
Presentamos DreamPolish, un modelo de generación de texto a 3D que destaca por producir geometría refinada y texturas de alta calidad. En la fase de construcción de la geometría, nuestro enfoque aprovecha múltiples representaciones neuronales para mejorar la estabilidad del proceso de síntesis. En lugar de depender únicamente de una difusión condicionada a la vista en las nuevas vistas muestreadas, lo cual a menudo conduce a artefactos no deseados en la superficie geométrica, incorporamos un estimador normal adicional para pulir los detalles de la geometría, condicionado a puntos de vista con diferentes campos de visión. Proponemos añadir una etapa de pulido de superficie con solo unos pocos pasos de entrenamiento, que puede refinar efectivamente los artefactos atribuidos a la orientación limitada de las etapas anteriores y producir objetos 3D con una geometría más deseable. El tema clave de la generación de texturas utilizando modelos preentrenados de texto a imagen es encontrar un dominio adecuado en la vasta distribución latente de estos modelos que contenga representaciones fotorrealistas y consistentes. En la fase de generación de texturas, introducimos un objetivo de destilación de puntuación novedoso, denominado destilación de puntuación de dominio (DSD), para guiar las representaciones neuronales hacia dicho dominio. Nos inspiramos en la orientación sin clasificador (CFG) en tareas de generación de imágenes condicionadas por texto y demostramos que CFG y la orientación de distribución variacional representan aspectos distintos en la orientación de gradientes y son ambos dominios imperativos para la mejora de la calidad de las texturas. Experimentos extensos muestran que nuestro modelo propuesto puede producir activos 3D con superficies pulidas y texturas fotorrealistas, superando a los métodos existentes de última generación.
English
We introduce DreamPolish, a text-to-3D generation model that excels in
producing refined geometry and high-quality textures. In the geometry
construction phase, our approach leverages multiple neural representations to
enhance the stability of the synthesis process. Instead of relying solely on a
view-conditioned diffusion prior in the novel sampled views, which often leads
to undesired artifacts in the geometric surface, we incorporate an additional
normal estimator to polish the geometry details, conditioned on viewpoints with
varying field-of-views. We propose to add a surface polishing stage with only a
few training steps, which can effectively refine the artifacts attributed to
limited guidance from previous stages and produce 3D objects with more
desirable geometry. The key topic of texture generation using pretrained
text-to-image models is to find a suitable domain in the vast latent
distribution of these models that contains photorealistic and consistent
renderings. In the texture generation phase, we introduce a novel score
distillation objective, namely domain score distillation (DSD), to guide neural
representations toward such a domain. We draw inspiration from the
classifier-free guidance (CFG) in textconditioned image generation tasks and
show that CFG and variational distribution guidance represent distinct aspects
in gradient guidance and are both imperative domains for the enhancement of
texture quality. Extensive experiments show our proposed model can produce 3D
assets with polished surfaces and photorealistic textures, outperforming
existing state-of-the-art methods.Summary
AI-Generated Summary