Muestreo por Destilación de Puntuación con Corrección de Variedad Aprendida
Score Distillation Sampling with Learned Manifold Corrective
January 10, 2024
Autores: Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
cs.AI
Resumen
El Muestreo por Destilación de Puntuaciones (Score Distillation Sampling, SDS) es un método reciente pero ya ampliamente popular que se basa en un modelo de difusión de imágenes para controlar problemas de optimización mediante indicaciones de texto. En este artículo, realizamos un análisis en profundidad de la función de pérdida de SDS, identificamos un problema inherente en su formulación y proponemos una solución sorprendentemente sencilla pero efectiva. Específicamente, descomponemos la pérdida en diferentes factores y aislamos el componente responsable de los gradientes ruidosos. En la formulación original, se utiliza una alta guía de texto para contrarrestar el ruido, lo que genera efectos secundarios no deseados. En su lugar, entrenamos una red superficial que imita la deficiencia de eliminación de ruido dependiente del paso de tiempo del modelo de difusión de imágenes para factorizarla de manera efectiva. Demostramos la versatilidad y la efectividad de nuestra nueva formulación de pérdida a través de varios experimentos cualitativos y cuantitativos, incluyendo la síntesis y edición de imágenes basada en optimización, el entrenamiento de redes de traducción de imágenes en modo cero y la síntesis de texto a 3D.
English
Score Distillation Sampling (SDS) is a recent but already widely popular
method that relies on an image diffusion model to control optimization problems
using text prompts. In this paper, we conduct an in-depth analysis of the SDS
loss function, identify an inherent problem with its formulation, and propose a
surprisingly easy but effective fix. Specifically, we decompose the loss into
different factors and isolate the component responsible for noisy gradients. In
the original formulation, high text guidance is used to account for the noise,
leading to unwanted side effects. Instead, we train a shallow network mimicking
the timestep-dependent denoising deficiency of the image diffusion model in
order to effectively factor it out. We demonstrate the versatility and the
effectiveness of our novel loss formulation through several qualitative and
quantitative experiments, including optimization-based image synthesis and
editing, zero-shot image translation network training, and text-to-3D
synthesis.