Adaptive Guidance: Trainingsfreie Beschleunigung konditionaler Diffusionsmodelle
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models
December 19, 2023
Autoren: Angela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet
cs.AI
Zusammenfassung
Diese Arbeit präsentiert eine umfassende Studie zur Rolle von Classifier-Free Guidance (CFG) in textbedingten Diffusionsmodellen aus der Perspektive der Inferenzeffizienz. Insbesondere lockern wir die Standardwahl, CFG in allen Diffusionsschritten anzuwenden, und suchen stattdessen nach effizienten Guidance-Strategien. Wir formulieren die Entdeckung solcher Strategien im Rahmen des differenzierbaren Neural Architecture Search. Unsere Ergebnisse deuten darauf hin, dass die von CFG vorgeschlagenen Denoising-Schritte zunehmend mit einfachen bedingten Schritten übereinstimmen, was die zusätzliche neuronale Netzwerkevaluation von CFG überflüssig macht, insbesondere in der zweiten Hälfte des Denoising-Prozesses. Aufbauend auf dieser Erkenntnis schlagen wir „Adaptive Guidance“ (AG) vor, eine effiziente Variante von CFG, die Netzwerkevaluationen adaptiv auslässt, wenn der Denoising-Prozess Konvergenz zeigt. Unsere Experimente zeigen, dass AG die Bildqualität von CFG bewahrt, während die Berechnung um 25 % reduziert wird. Somit stellt AG eine Plug-and-Play-Alternative zu Guidance Distillation dar, die 50 % der Beschleunigungen der letzteren erreicht, während sie trainingsfrei ist und die Fähigkeit behält, negative Prompts zu verarbeiten. Schließlich decken wir weitere Redundanzen von CFG in der ersten Hälfte des Diffusionsprozesses auf und zeigen, dass gesamte neuronale Funktionsevaluationen durch einfache affine Transformationen vergangener Score-Schätzungen ersetzt werden können. Diese Methode, genannt LinearAG, bietet noch kostengünstigere Inferenz auf Kosten einer Abweichung vom Basismodell. Unsere Erkenntnisse liefern Einblicke in die Effizienz des bedingten Denoising-Prozesses, die zu einer praktischeren und schnelleren Bereitstellung textbedingter Diffusionsmodelle beitragen.
English
This paper presents a comprehensive study on the role of Classifier-Free
Guidance (CFG) in text-conditioned diffusion models from the perspective of
inference efficiency. In particular, we relax the default choice of applying
CFG in all diffusion steps and instead search for efficient guidance policies.
We formulate the discovery of such policies in the differentiable Neural
Architecture Search framework. Our findings suggest that the denoising steps
proposed by CFG become increasingly aligned with simple conditional steps,
which renders the extra neural network evaluation of CFG redundant, especially
in the second half of the denoising process. Building upon this insight, we
propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively
omits network evaluations when the denoising process displays convergence. Our
experiments demonstrate that AG preserves CFG's image quality while reducing
computation by 25%. Thus, AG constitutes a plug-and-play alternative to
Guidance Distillation, achieving 50% of the speed-ups of the latter while being
training-free and retaining the capacity to handle negative prompts. Finally,
we uncover further redundancies of CFG in the first half of the diffusion
process, showing that entire neural function evaluations can be replaced by
simple affine transformations of past score estimates. This method, termed
LinearAG, offers even cheaper inference at the cost of deviating from the
baseline model. Our findings provide insights into the efficiency of the
conditional denoising process that contribute to more practical and swift
deployment of text-conditioned diffusion models.