Orientación Adaptativa: Aceleración sin Entrenamiento de Modelos de Difusión Condicionales
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models
December 19, 2023
Autores: Angela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet
cs.AI
Resumen
Este artículo presenta un estudio exhaustivo sobre el papel de la Guía Libre de Clasificador (Classifier-Free Guidance, CFG) en modelos de difusión condicionados por texto, desde la perspectiva de la eficiencia en la inferencia. En particular, relajamos la elección predeterminada de aplicar CFG en todos los pasos de difusión y, en su lugar, buscamos políticas de guía eficientes. Formulamos el descubrimiento de dichas políticas en el marco de Búsqueda de Arquitectura Neuronal Diferenciable (Neural Architecture Search). Nuestros hallazgos sugieren que los pasos de eliminación de ruido propuestos por CFG se alinean cada vez más con pasos condicionales simples, lo que hace redundante la evaluación adicional de la red neuronal de CFG, especialmente en la segunda mitad del proceso de eliminación de ruido. Basándonos en esta idea, proponemos "Guía Adaptativa" (Adaptive Guidance, AG), una variante eficiente de CFG que omite de manera adaptativa las evaluaciones de la red cuando el proceso de eliminación de ruido muestra convergencia. Nuestros experimentos demuestran que AG preserva la calidad de imagen de CFG mientras reduce el cómputo en un 25%. Por lo tanto, AG constituye una alternativa plug-and-play a la Destilación de Guía (Guidance Distillation), logrando el 50% de las aceleraciones de esta última, sin necesidad de entrenamiento y manteniendo la capacidad de manejar indicaciones negativas. Finalmente, descubrimos más redundancias de CFG en la primera mitad del proceso de difusión, mostrando que evaluaciones completas de funciones neuronales pueden ser reemplazadas por transformaciones afines simples de estimaciones de puntuación pasadas. Este método, denominado LinearAG, ofrece una inferencia aún más económica a costa de desviarse del modelo base. Nuestros hallazgos proporcionan información sobre la eficiencia del proceso de eliminación de ruido condicional, contribuyendo a un despliegue más práctico y rápido de modelos de difusión condicionados por texto.
English
This paper presents a comprehensive study on the role of Classifier-Free
Guidance (CFG) in text-conditioned diffusion models from the perspective of
inference efficiency. In particular, we relax the default choice of applying
CFG in all diffusion steps and instead search for efficient guidance policies.
We formulate the discovery of such policies in the differentiable Neural
Architecture Search framework. Our findings suggest that the denoising steps
proposed by CFG become increasingly aligned with simple conditional steps,
which renders the extra neural network evaluation of CFG redundant, especially
in the second half of the denoising process. Building upon this insight, we
propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively
omits network evaluations when the denoising process displays convergence. Our
experiments demonstrate that AG preserves CFG's image quality while reducing
computation by 25%. Thus, AG constitutes a plug-and-play alternative to
Guidance Distillation, achieving 50% of the speed-ups of the latter while being
training-free and retaining the capacity to handle negative prompts. Finally,
we uncover further redundancies of CFG in the first half of the diffusion
process, showing that entire neural function evaluations can be replaced by
simple affine transformations of past score estimates. This method, termed
LinearAG, offers even cheaper inference at the cost of deviating from the
baseline model. Our findings provide insights into the efficiency of the
conditional denoising process that contribute to more practical and swift
deployment of text-conditioned diffusion models.