Orientación Adaptativa: Aceleración sin Entrenamiento de Modelos de Difusión Condicionales

Resumen

Este artículo presenta un estudio exhaustivo sobre el papel de la Guía Libre de Clasificador (Classifier-Free Guidance, CFG) en modelos de difusión condicionados por texto, desde la perspectiva de la eficiencia en la inferencia. En particular, relajamos la elección predeterminada de aplicar CFG en todos los pasos de difusión y, en su lugar, buscamos políticas de guía eficientes. Formulamos el descubrimiento de dichas políticas en el marco de Búsqueda de Arquitectura Neuronal Diferenciable (Neural Architecture Search). Nuestros hallazgos sugieren que los pasos de eliminación de ruido propuestos por CFG se alinean cada vez más con pasos condicionales simples, lo que hace redundante la evaluación adicional de la red neuronal de CFG, especialmente en la segunda mitad del proceso de eliminación de ruido. Basándonos en esta idea, proponemos "Guía Adaptativa" (Adaptive Guidance, AG), una variante eficiente de CFG que omite de manera adaptativa las evaluaciones de la red cuando el proceso de eliminación de ruido muestra convergencia. Nuestros experimentos demuestran que AG preserva la calidad de imagen de CFG mientras reduce el cómputo en un 25%. Por lo tanto, AG constituye una alternativa plug-and-play a la Destilación de Guía (Guidance Distillation), logrando el 50% de las aceleraciones de esta última, sin necesidad de entrenamiento y manteniendo la capacidad de manejar indicaciones negativas. Finalmente, descubrimos más redundancias de CFG en la primera mitad del proceso de difusión, mostrando que evaluaciones completas de funciones neuronales pueden ser reemplazadas por transformaciones afines simples de estimaciones de puntuación pasadas. Este método, denominado LinearAG, ofrece una inferencia aún más económica a costa de desviarse del modelo base. Nuestros hallazgos proporcionan información sobre la eficiencia del proceso de eliminación de ruido condicional, contribuyendo a un despliegue más práctico y rápido de modelos de difusión condicionados por texto.

English

This paper presents a comprehensive study on the role of Classifier-Free Guidance (CFG) in text-conditioned diffusion models from the perspective of inference efficiency. In particular, we relax the default choice of applying CFG in all diffusion steps and instead search for efficient guidance policies. We formulate the discovery of such policies in the differentiable Neural Architecture Search framework. Our findings suggest that the denoising steps proposed by CFG become increasingly aligned with simple conditional steps, which renders the extra neural network evaluation of CFG redundant, especially in the second half of the denoising process. Building upon this insight, we propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively omits network evaluations when the denoising process displays convergence. Our experiments demonstrate that AG preserves CFG's image quality while reducing computation by 25%. Thus, AG constitutes a plug-and-play alternative to Guidance Distillation, achieving 50% of the speed-ups of the latter while being training-free and retaining the capacity to handle negative prompts. Finally, we uncover further redundancies of CFG in the first half of the diffusion process, showing that entire neural function evaluations can be replaced by simple affine transformations of past score estimates. This method, termed LinearAG, offers even cheaper inference at the cost of deviating from the baseline model. Our findings provide insights into the efficiency of the conditional denoising process that contribute to more practical and swift deployment of text-conditioned diffusion models.

Orientación Adaptativa: Aceleración sin Entrenamiento de Modelos de Difusión Condicionales

Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

Resumen

Support