Auf dem Weg zu einer präzisen geführten Diffusion-Sampling durch die symplektische Adjungierten-Methode
Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
December 19, 2023
Autoren: Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan
cs.AI
Zusammenfassung
Trainingsfreie geführte Stichprobenentnahme in Diffusionsmodellen nutzt vorgefertigte, vortrainierte Netzwerke, wie beispielsweise ein Modell zur ästhetischen Bewertung, um den Generierungsprozess zu steuern. Aktuelle Algorithmen für trainingsfreie geführte Stichprobenentnahme ermitteln die Führungsenergiefunktion basierend auf einer Ein-Schritt-Schätzung des sauberen Bildes. Da die vorgefertigten, vortrainierten Netzwerke jedoch auf sauberen Bildern trainiert wurden, kann die Ein-Schritt-Schätzung des sauberen Bildes ungenau sein, insbesondere in den frühen Phasen des Generierungsprozesses in Diffusionsmodellen. Dies führt dazu, dass die Führung in den frühen Zeitschritten ungenau ist. Um dieses Problem zu überwinden, schlagen wir Symplectic Adjoint Guidance (SAG) vor, das die Gradientenführung in zwei inneren Stufen berechnet. Zunächst schätzt SAG das saubere Bild über n Funktionsaufrufe, wobei n als flexibler Hyperparameter dient, der an spezifische Bildqualitätsanforderungen angepasst werden kann. Zweitens verwendet SAG die symplektische adjungierte Methode, um die Gradienten präzise und effizient in Bezug auf die Speicheranforderungen zu ermitteln. Umfangreiche Experimente zeigen, dass SAG im Vergleich zu den Baselines Bilder mit höherer Qualität sowohl in geführten Bild- als auch in Videogenerierungsaufgaben erzeugt.
English
Training-free guided sampling in diffusion models leverages off-the-shelf
pre-trained networks, such as an aesthetic evaluation model, to guide the
generation process. Current training-free guided sampling algorithms obtain the
guidance energy function based on a one-step estimate of the clean image.
However, since the off-the-shelf pre-trained networks are trained on clean
images, the one-step estimation procedure of the clean image may be inaccurate,
especially in the early stages of the generation process in diffusion models.
This causes the guidance in the early time steps to be inaccurate. To overcome
this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates
the gradient guidance in two inner stages. Firstly, SAG estimates the clean
image via n function calls, where n serves as a flexible hyperparameter
that can be tailored to meet specific image quality requirements. Secondly, SAG
uses the symplectic adjoint method to obtain the gradients accurately and
efficiently in terms of the memory requirements. Extensive experiments
demonstrate that SAG generates images with higher qualities compared to the
baselines in both guided image and video generation tasks.