ChatPaper.aiChatPaper

Amostragem por Destilação de Pontuação com Correção de Variedade Aprendida

Score Distillation Sampling with Learned Manifold Corrective

January 10, 2024
Autores: Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
cs.AI

Resumo

O Score Distillation Sampling (SDS) é um método recente, mas já amplamente popular, que utiliza um modelo de difusão de imagens para controlar problemas de otimização por meio de prompts de texto. Neste artigo, realizamos uma análise aprofundada da função de perda do SDS, identificamos um problema inerente à sua formulação e propomos uma correção surpreendentemente simples, mas eficaz. Especificamente, decompomos a perda em diferentes fatores e isolamos o componente responsável pelos gradientes ruidosos. Na formulação original, uma alta orientação textual é usada para compensar o ruído, o que leva a efeitos colaterais indesejados. Em vez disso, treinamos uma rede rasa que imita a deficiência de remoção de ruído dependente do passo de tempo do modelo de difusão de imagens, a fim de fatorá-la de forma eficaz. Demonstramos a versatilidade e a eficácia de nossa nova formulação de perda por meio de vários experimentos qualitativos e quantitativos, incluindo síntese e edição de imagens baseadas em otimização, treinamento de redes de tradução de imagens zero-shot e síntese de texto para 3D.
English
Score Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. In this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects. Instead, we train a shallow network mimicking the timestep-dependent denoising deficiency of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through several qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis.
PDF121February 8, 2026