Vers un échantillonnage précis par diffusion guidée grâce à la méthode adjointe symplectique
Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
December 19, 2023
Auteurs: Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan
cs.AI
Résumé
L'échantillonnage guidé sans apprentissage dans les modèles de diffusion exploite des réseaux pré-entraînés prêts à l'emploi, tels qu'un modèle d'évaluation esthétique, pour orienter le processus de génération. Les algorithmes actuels d'échantillonnage guidé sans apprentissage obtiennent la fonction d'énergie de guidage basée sur une estimation en une étape de l'image propre. Cependant, puisque les réseaux pré-entraînés prêts à l'emploi sont entraînés sur des images propres, la procédure d'estimation en une étape de l'image propre peut être imprécise, en particulier dans les premières étapes du processus de génération dans les modèles de diffusion. Cela entraîne un guidage inexact dans les premiers pas de temps. Pour surmonter ce problème, nous proposons le Symplectic Adjoint Guidance (SAG), qui calcule le gradient de guidage en deux étapes internes. Premièrement, SAG estime l'image propre via n appels de fonction, où n sert d'hyperparamètre flexible pouvant être ajusté pour répondre à des exigences spécifiques de qualité d'image. Deuxièmement, SAG utilise la méthode adjointe symplectique pour obtenir les gradients de manière précise et efficace en termes de besoins en mémoire. Des expériences approfondies démontrent que SAG génère des images de qualité supérieure par rapport aux méthodes de référence dans les tâches de génération guidée d'images et de vidéos.
English
Training-free guided sampling in diffusion models leverages off-the-shelf
pre-trained networks, such as an aesthetic evaluation model, to guide the
generation process. Current training-free guided sampling algorithms obtain the
guidance energy function based on a one-step estimate of the clean image.
However, since the off-the-shelf pre-trained networks are trained on clean
images, the one-step estimation procedure of the clean image may be inaccurate,
especially in the early stages of the generation process in diffusion models.
This causes the guidance in the early time steps to be inaccurate. To overcome
this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates
the gradient guidance in two inner stages. Firstly, SAG estimates the clean
image via n function calls, where n serves as a flexible hyperparameter
that can be tailored to meet specific image quality requirements. Secondly, SAG
uses the symplectic adjoint method to obtain the gradients accurately and
efficiently in terms of the memory requirements. Extensive experiments
demonstrate that SAG generates images with higher qualities compared to the
baselines in both guided image and video generation tasks.