Distillazione del Punteggio con Campionamento e Correzione Appresa sulla Varietà
Score Distillation Sampling with Learned Manifold Corrective
January 10, 2024
Autori: Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
cs.AI
Abstract
Lo Score Distillation Sampling (SDS) è un metodo recente ma già ampiamente popolare che si basa su un modello di diffusione di immagini per controllare problemi di ottimizzazione utilizzando prompt testuali. In questo articolo, conduciamo un'analisi approfondita della funzione di perdita SDS, identifichiamo un problema intrinseco nella sua formulazione e proponiamo una soluzione sorprendentemente semplice ma efficace. Nello specifico, scomponiamo la perdita in diversi fattori e isoliamo il componente responsabile dei gradienti rumorosi. Nella formulazione originale, viene utilizzata un'elevata guida testuale per compensare il rumore, portando a effetti collaterali indesiderati. Invece, addestriamo una rete superficiale che imita la carenza di denoising dipendente dal timestep del modello di diffusione di immagini per fattorizzarla efficacemente. Dimostriamo la versatilità e l'efficacia della nostra nuova formulazione della perdita attraverso diversi esperimenti qualitativi e quantitativi, tra cui la sintesi e la modifica di immagini basate sull'ottimizzazione, l'addestramento di reti di traduzione di immagini zero-shot e la sintesi da testo a 3D.
English
Score Distillation Sampling (SDS) is a recent but already widely popular
method that relies on an image diffusion model to control optimization problems
using text prompts. In this paper, we conduct an in-depth analysis of the SDS
loss function, identify an inherent problem with its formulation, and propose a
surprisingly easy but effective fix. Specifically, we decompose the loss into
different factors and isolate the component responsible for noisy gradients. In
the original formulation, high text guidance is used to account for the noise,
leading to unwanted side effects. Instead, we train a shallow network mimicking
the timestep-dependent denoising deficiency of the image diffusion model in
order to effectively factor it out. We demonstrate the versatility and the
effectiveness of our novel loss formulation through several qualitative and
quantitative experiments, including optimization-based image synthesis and
editing, zero-shot image translation network training, and text-to-3D
synthesis.