Score Distillation Sampling met Geleerde Manifold Correctie
Score Distillation Sampling with Learned Manifold Corrective
January 10, 2024
Auteurs: Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
cs.AI
Samenvatting
Score Distillation Sampling (SDS) is een recente maar inmiddels al veelgebruikte methode die vertrouwt op een beelddiffusiemodel om optimalisatieproblemen te sturen met behulp van tekstprompts. In dit artikel voeren we een diepgaande analyse uit van de SDS-verliesfunctie, identificeren we een inherent probleem met de formulering ervan, en stellen we een verrassend eenvoudige maar effectieve oplossing voor. Specifiek ontleden we het verlies in verschillende factoren en isoleren we de component die verantwoordelijk is voor ruisachtige gradiënten. In de oorspronkelijke formulering wordt een hoge tekstbegeleiding gebruikt om rekening te houden met de ruis, wat leidt tot ongewenste bijwerkingen. In plaats daarvan trainen we een ondiep netwerk dat de tijdsafhankelijke denoiseringsdeficiëntie van het beelddiffusiemodel nabootst om deze effectief te elimineren. We demonstreren de veelzijdigheid en effectiviteit van onze nieuwe verliesformulering door middel van verschillende kwalitatieve en kwantitatieve experimenten, waaronder optimalisatie-gebaseerde beeldgeneratie en -bewerking, zero-shot beeldvertalingstraining van netwerken, en tekst-naar-3D-synthese.
English
Score Distillation Sampling (SDS) is a recent but already widely popular
method that relies on an image diffusion model to control optimization problems
using text prompts. In this paper, we conduct an in-depth analysis of the SDS
loss function, identify an inherent problem with its formulation, and propose a
surprisingly easy but effective fix. Specifically, we decompose the loss into
different factors and isolate the component responsible for noisy gradients. In
the original formulation, high text guidance is used to account for the noise,
leading to unwanted side effects. Instead, we train a shallow network mimicking
the timestep-dependent denoising deficiency of the image diffusion model in
order to effectively factor it out. We demonstrate the versatility and the
effectiveness of our novel loss formulation through several qualitative and
quantitative experiments, including optimization-based image synthesis and
editing, zero-shot image translation network training, and text-to-3D
synthesis.