Em Direção à Amostragem Precisas de Difusão Guiada através do Método Adjunto Simplético
Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
December 19, 2023
Autores: Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan
cs.AI
Resumo
A amostragem guiada sem treinamento em modelos de difusão aproveita redes pré-treinadas prontas para uso, como um modelo de avaliação estética, para orientar o processo de geração. Os algoritmos atuais de amostragem guiada sem treinamento obtêm a função de energia de orientação com base em uma estimativa de um passo da imagem limpa. No entanto, como as redes pré-treinadas prontas para uso são treinadas em imagens limpas, o procedimento de estimativa de um passo da imagem limpa pode ser impreciso, especialmente nos estágios iniciais do processo de geração em modelos de difusão. Isso faz com que a orientação nos primeiros passos de tempo seja imprecisa. Para superar esse problema, propomos o Symplectic Adjoint Guidance (SAG), que calcula a orientação do gradiente em dois estágios internos. Primeiramente, o SAG estima a imagem limpa por meio de n chamadas de função, onde n serve como um hiperparâmetro flexível que pode ser ajustado para atender a requisitos específicos de qualidade de imagem. Em segundo lugar, o SAG utiliza o método adjunto simplético para obter os gradientes de forma precisa e eficiente em termos de requisitos de memória. Experimentos extensivos demonstram que o SAG gera imagens com qualidades superiores em comparação com as linhas de base em tarefas de geração guiada de imagens e vídeos.
English
Training-free guided sampling in diffusion models leverages off-the-shelf
pre-trained networks, such as an aesthetic evaluation model, to guide the
generation process. Current training-free guided sampling algorithms obtain the
guidance energy function based on a one-step estimate of the clean image.
However, since the off-the-shelf pre-trained networks are trained on clean
images, the one-step estimation procedure of the clean image may be inaccurate,
especially in the early stages of the generation process in diffusion models.
This causes the guidance in the early time steps to be inaccurate. To overcome
this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates
the gradient guidance in two inner stages. Firstly, SAG estimates the clean
image via n function calls, where n serves as a flexible hyperparameter
that can be tailored to meet specific image quality requirements. Secondly, SAG
uses the symplectic adjoint method to obtain the gradients accurately and
efficiently in terms of the memory requirements. Extensive experiments
demonstrate that SAG generates images with higher qualities compared to the
baselines in both guided image and video generation tasks.