Сэмплинг с дистилляцией оценок с использованием обученного корректирующего многообразия
Score Distillation Sampling with Learned Manifold Corrective
January 10, 2024
Авторы: Thiemo Alldieck, Nikos Kolotouros, Cristian Sminchisescu
cs.AI
Аннотация
Score Distillation Sampling (SDS) — это недавний, но уже широко популярный метод, который использует модель диффузии изображений для управления задачами оптимизации с помощью текстовых запросов. В данной работе мы проводим детальный анализ функции потерь SDS, выявляем фундаментальную проблему в её формулировке и предлагаем удивительно простое, но эффективное решение. В частности, мы разлагаем потери на различные компоненты и выделяем часть, ответственную за шумные градиенты. В оригинальной формулировке для компенсации шума используется высокая степень текстового руководства, что приводит к нежелательным побочным эффектам. Вместо этого мы обучаем неглубокую сеть, имитирующую зависимую от временного шага недостаточность удаления шума в модели диффузии изображений, чтобы эффективно исключить её влияние. Мы демонстрируем универсальность и эффективность нашей новой формулировки потерь с помощью ряда качественных и количественных экспериментов, включая синтез изображений на основе оптимизации, редактирование, обучение сетей для перевода изображений в режиме zero-shot и синтез текста в 3D.
English
Score Distillation Sampling (SDS) is a recent but already widely popular
method that relies on an image diffusion model to control optimization problems
using text prompts. In this paper, we conduct an in-depth analysis of the SDS
loss function, identify an inherent problem with its formulation, and propose a
surprisingly easy but effective fix. Specifically, we decompose the loss into
different factors and isolate the component responsible for noisy gradients. In
the original formulation, high text guidance is used to account for the noise,
leading to unwanted side effects. Instead, we train a shallow network mimicking
the timestep-dependent denoising deficiency of the image diffusion model in
order to effectively factor it out. We demonstrate the versatility and the
effectiveness of our novel loss formulation through several qualitative and
quantitative experiments, including optimization-based image synthesis and
editing, zero-shot image translation network training, and text-to-3D
synthesis.