Verso un Campionamento Preciso nella Diffusione Guidata attraverso il Metodo Adjoint Simplettico
Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
December 19, 2023
Autori: Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan
cs.AI
Abstract
Il campionamento guidato senza addestramento nei modelli di diffusione sfrutta reti pre-addestrate già disponibili, come un modello di valutazione estetica, per guidare il processo di generazione. Gli attuali algoritmi di campionamento guidato senza addestramento ottengono la funzione di energia di guida basandosi su una stima a un passo dell'immagine pulita. Tuttavia, poiché le reti pre-addestrate disponibili sono state addestrate su immagini pulite, la procedura di stima a un passo dell'immagine pulita potrebbe essere imprecisa, specialmente nelle fasi iniziali del processo di generazione nei modelli di diffusione. Ciò rende la guida nei primi passi temporali inaccurata. Per superare questo problema, proponiamo la Symplectic Adjoint Guidance (SAG), che calcola il gradiente di guida in due fasi interne. In primo luogo, la SAG stima l'immagine pulita tramite n chiamate di funzione, dove n funge da iperparametro flessibile che può essere adattato per soddisfare specifici requisiti di qualità dell'immagine. In secondo luogo, la SAG utilizza il metodo aggiunto simplettico per ottenere i gradienti in modo accurato ed efficiente in termini di requisiti di memoria. Esperimenti estensivi dimostrano che la SAG genera immagini di qualità superiore rispetto ai metodi di riferimento sia nei compiti di generazione guidata di immagini che di video.
English
Training-free guided sampling in diffusion models leverages off-the-shelf
pre-trained networks, such as an aesthetic evaluation model, to guide the
generation process. Current training-free guided sampling algorithms obtain the
guidance energy function based on a one-step estimate of the clean image.
However, since the off-the-shelf pre-trained networks are trained on clean
images, the one-step estimation procedure of the clean image may be inaccurate,
especially in the early stages of the generation process in diffusion models.
This causes the guidance in the early time steps to be inaccurate. To overcome
this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates
the gradient guidance in two inner stages. Firstly, SAG estimates the clean
image via n function calls, where n serves as a flexible hyperparameter
that can be tailored to meet specific image quality requirements. Secondly, SAG
uses the symplectic adjoint method to obtain the gradients accurately and
efficiently in terms of the memory requirements. Extensive experiments
demonstrate that SAG generates images with higher qualities compared to the
baselines in both guided image and video generation tasks.