Naar nauwkeurige begeleide diffusie-steekproeven via de symplectische adjoint-methode
Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
December 19, 2023
Auteurs: Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan
cs.AI
Samenvatting
Trainingsvrije begeleide sampling in diffusiemodellen maakt gebruik van kant-en-klare vooraf getrainde netwerken, zoals een esthetisch evaluatiemodel, om het generatieproces te sturen. Huidige trainingsvrije begeleide sampling-algoritmen verkrijgen de begeleidingsenergiefunctie op basis van een eenstapschatting van de schone afbeelding. Echter, aangezien de kant-en-klare vooraf getrainde netwerken zijn getraind op schone afbeeldingen, kan de eenstapschatting van de schone afbeelding onnauwkeurig zijn, vooral in de vroege fasen van het generatieproces in diffusiemodellen. Dit zorgt ervoor dat de begeleiding in de vroege tijdstappen onnauwkeurig is. Om dit probleem te overwinnen, stellen we Symplectic Adjoint Guidance (SAG) voor, dat de gradiëntbegeleiding in twee interne fasen berekent. Ten eerste schat SAG de schone afbeelding via n functieaanroepen, waarbij n dient als een flexibele hyperparameter die kan worden afgestemd om aan specifieke beeldkwaliteitseisen te voldoen. Ten tweede gebruikt SAG de symplectische adjoint-methode om de gradiënten nauwkeurig en efficiënt te verkrijgen wat betreft de geheugenvereisten. Uitgebreide experimenten tonen aan dat SAG afbeeldingen genereert met hogere kwaliteiten vergeleken met de basislijnen in zowel begeleide afbeelding- als videogeneratietaken.
English
Training-free guided sampling in diffusion models leverages off-the-shelf
pre-trained networks, such as an aesthetic evaluation model, to guide the
generation process. Current training-free guided sampling algorithms obtain the
guidance energy function based on a one-step estimate of the clean image.
However, since the off-the-shelf pre-trained networks are trained on clean
images, the one-step estimation procedure of the clean image may be inaccurate,
especially in the early stages of the generation process in diffusion models.
This causes the guidance in the early time steps to be inaccurate. To overcome
this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates
the gradient guidance in two inner stages. Firstly, SAG estimates the clean
image via n function calls, where n serves as a flexible hyperparameter
that can be tailored to meet specific image quality requirements. Secondly, SAG
uses the symplectic adjoint method to obtain the gradients accurately and
efficiently in terms of the memory requirements. Extensive experiments
demonstrate that SAG generates images with higher qualities compared to the
baselines in both guided image and video generation tasks.