Distillazione del Punteggio con Campionamento e Correzione Appresa sulla Varietà

Abstract

Lo Score Distillation Sampling (SDS) è un metodo recente ma già ampiamente popolare che si basa su un modello di diffusione di immagini per controllare problemi di ottimizzazione utilizzando prompt testuali. In questo articolo, conduciamo un'analisi approfondita della funzione di perdita SDS, identifichiamo un problema intrinseco nella sua formulazione e proponiamo una soluzione sorprendentemente semplice ma efficace. Nello specifico, scomponiamo la perdita in diversi fattori e isoliamo il componente responsabile dei gradienti rumorosi. Nella formulazione originale, viene utilizzata un'elevata guida testuale per compensare il rumore, portando a effetti collaterali indesiderati. Invece, addestriamo una rete superficiale che imita la carenza di denoising dipendente dal timestep del modello di diffusione di immagini per fattorizzarla efficacemente. Dimostriamo la versatilità e l'efficacia della nostra nuova formulazione della perdita attraverso diversi esperimenti qualitativi e quantitativi, tra cui la sintesi e la modifica di immagini basate sull'ottimizzazione, l'addestramento di reti di traduzione di immagini zero-shot e la sintesi da testo a 3D.

English

Score Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. In this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects. Instead, we train a shallow network mimicking the timestep-dependent denoising deficiency of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through several qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis.

Distillazione del Punteggio con Campionamento e Correzione Appresa sulla Varietà

Score Distillation Sampling with Learned Manifold Corrective

Abstract

Support