ChatPaper.aiChatPaper

Échantillonnage par Distillation de Scores avec Correction de Variété Apprise

Score Distillation Sampling with Learned Manifold Corrective

January 10, 2024
Auteurs: Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
cs.AI

Résumé

Le Score Distillation Sampling (SDS) est une méthode récente mais déjà largement populaire qui s'appuie sur un modèle de diffusion d'images pour contrôler des problèmes d'optimisation à l'aide de prompts textuels. Dans cet article, nous menons une analyse approfondie de la fonction de perte SDS, identifions un problème inhérent à sa formulation et proposons une solution étonnamment simple mais efficace. Plus précisément, nous décomposons la perte en différents facteurs et isolons le composant responsable des gradients bruyants. Dans la formulation originale, un guidage textuel élevé est utilisé pour compenser le bruit, ce qui entraîne des effets secondaires indésirables. À la place, nous entraînons un réseau peu profond qui imite la déficience de débruitage dépendante du pas de temps du modèle de diffusion d'images afin de la factoriser efficacement. Nous démontrons la polyvalence et l'efficacité de notre nouvelle formulation de perte à travers plusieurs expériences qualitatives et quantitatives, incluant la synthèse d'images basée sur l'optimisation, l'édition d'images, l'entraînement de réseaux de traduction d'images en zero-shot, et la synthèse de texte en 3D.
English
Score Distillation Sampling (SDS) is a recent but already widely popular method that relies on an image diffusion model to control optimization problems using text prompts. In this paper, we conduct an in-depth analysis of the SDS loss function, identify an inherent problem with its formulation, and propose a surprisingly easy but effective fix. Specifically, we decompose the loss into different factors and isolate the component responsible for noisy gradients. In the original formulation, high text guidance is used to account for the noise, leading to unwanted side effects. Instead, we train a shallow network mimicking the timestep-dependent denoising deficiency of the image diffusion model in order to effectively factor it out. We demonstrate the versatility and the effectiveness of our novel loss formulation through several qualitative and quantitative experiments, including optimization-based image synthesis and editing, zero-shot image translation network training, and text-to-3D synthesis.
PDF111December 15, 2024