ChatPaper.aiChatPaper

Score Distillation Sampling met Geleerde Manifold Correctie

Score Distillation Sampling with Learned Manifold Corrective

January 10, 2024
Auteurs: Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
cs.AI

Samenvatting

Score Distillation Sampling (SDS) is een recente maar inmiddels al veelgebruikte methode die vertrouwt op een beelddiffusiemodel om optimalisatieproblemen te sturen met behulp van tekstprompts. In dit artikel voeren we een diepgaande analyse uit van de SDS-verliesfunctie, identificeren we een inherent probleem met de formulering ervan, en stellen we een verrassend eenvoudige maar effectieve oplossing voor. Specifiek ontleden we het verlies in verschillende factoren en isoleren we de component die verantwoordelijk is voor ruisachtige gradiënten. In de oorspronkelijke formulering wordt een hoge tekstbegeleiding gebruikt om rekening te houden met de ruis, wat leidt tot ongewenste bijwerkingen. In plaats daarvan trainen we een ondiep netwerk dat de tijdsafhankelijke denoiseringsdeficiëntie van het beelddiffusiemodel nabootst om deze effectief te elimineren. We demonstreren de veelzijdigheid en effectiviteit van onze nieuwe verliesformulering door middel van verschillende kwalitatieve en kwantitatieve experimenten, waaronder optimalisatie-gebaseerde beeldgeneratie en -bewerking, zero-shot beeldvertalingstraining van netwerken, en tekst-naar-3D-synthese.
English
Score Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. In this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects. Instead, we train a shallow network mimicking the timestep-dependent denoising deficiency of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through several qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis.
PDF121February 8, 2026