К точному направленному сэмплированию диффузии через симплектический сопряженный метод
Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
December 19, 2023
Авторы: Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan
cs.AI
Аннотация
Обучение без дополнительного обучения в диффузионных моделях использует готовые предобученные сети, такие как модель оценки эстетики, для управления процессом генерации. Современные алгоритмы обучения без дополнительного обучения получают функцию энергии управления на основе одношаговой оценки чистого изображения. Однако, поскольку готовые предобученные сети обучаются на чистых изображениях, процедура одношаговой оценки чистого изображения может быть неточной, особенно на ранних этапах процесса генерации в диффузионных моделях. Это приводит к неточности управления на ранних временных шагах. Чтобы преодолеть эту проблему, мы предлагаем метод Symplectic Adjoint Guidance (SAG), который вычисляет градиентное управление в двух внутренних этапах. Во-первых, SAG оценивает чистое изображение с помощью n вызовов функции, где n служит гибким гиперпараметром, который можно настроить для удовлетворения конкретных требований к качеству изображения. Во-вторых, SAG использует симплектический сопряженный метод для точного и эффективного получения градиентов с точки зрения требований к памяти. Многочисленные эксперименты демонстрируют, что SAG генерирует изображения более высокого качества по сравнению с базовыми методами как в задачах управляемой генерации изображений, так и видео.
English
Training-free guided sampling in diffusion models leverages off-the-shelf
pre-trained networks, such as an aesthetic evaluation model, to guide the
generation process. Current training-free guided sampling algorithms obtain the
guidance energy function based on a one-step estimate of the clean image.
However, since the off-the-shelf pre-trained networks are trained on clean
images, the one-step estimation procedure of the clean image may be inaccurate,
especially in the early stages of the generation process in diffusion models.
This causes the guidance in the early time steps to be inaccurate. To overcome
this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates
the gradient guidance in two inner stages. Firstly, SAG estimates the clean
image via n function calls, where n serves as a flexible hyperparameter
that can be tailored to meet specific image quality requirements. Secondly, SAG
uses the symplectic adjoint method to obtain the gradients accurately and
efficiently in terms of the memory requirements. Extensive experiments
demonstrate that SAG generates images with higher qualities compared to the
baselines in both guided image and video generation tasks.