Hacia un Muestreo Preciso en Difusión Guiada mediante el Método Adjunto Simpléctico
Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint Method
December 19, 2023
Autores: Jiachun Pan, Hanshu Yan, Jun Hao Liew, Jiashi Feng, Vincent Y. F. Tan
cs.AI
Resumen
El muestreo guiado sin entrenamiento en modelos de difusión aprovecha redes preentrenadas estándar, como un modelo de evaluación estética, para guiar el proceso de generación. Los algoritmos actuales de muestreo guiado sin entrenamiento obtienen la función de energía de guía basándose en una estimación de un solo paso de la imagen limpia. Sin embargo, dado que las redes preentrenadas estándar se entrenan con imágenes limpias, el procedimiento de estimación de un solo paso de la imagen limpia puede ser inexacto, especialmente en las etapas iniciales del proceso de generación en modelos de difusión. Esto provoca que la guía en los primeros pasos temporales sea imprecisa. Para superar este problema, proponemos Symplectic Adjoint Guidance (SAG), que calcula la guía de gradiente en dos etapas internas. En primer lugar, SAG estima la imagen limpia mediante n llamadas a función, donde n actúa como un hiperparámetro flexible que puede ajustarse para cumplir con requisitos específicos de calidad de imagen. En segundo lugar, SAG utiliza el método adjunto simpléctico para obtener los gradientes de manera precisa y eficiente en términos de requisitos de memoria. Experimentos exhaustivos demuestran que SAG genera imágenes con calidades superiores en comparación con los métodos de referencia, tanto en tareas de generación guiada de imágenes como de videos.
English
Training-free guided sampling in diffusion models leverages off-the-shelf
pre-trained networks, such as an aesthetic evaluation model, to guide the
generation process. Current training-free guided sampling algorithms obtain the
guidance energy function based on a one-step estimate of the clean image.
However, since the off-the-shelf pre-trained networks are trained on clean
images, the one-step estimation procedure of the clean image may be inaccurate,
especially in the early stages of the generation process in diffusion models.
This causes the guidance in the early time steps to be inaccurate. To overcome
this problem, we propose Symplectic Adjoint Guidance (SAG), which calculates
the gradient guidance in two inner stages. Firstly, SAG estimates the clean
image via n function calls, where n serves as a flexible hyperparameter
that can be tailored to meet specific image quality requirements. Secondly, SAG
uses the symplectic adjoint method to obtain the gradients accurately and
efficiently in terms of the memory requirements. Extensive experiments
demonstrate that SAG generates images with higher qualities compared to the
baselines in both guided image and video generation tasks.