Adaptive Guidance: Trainingsfreie Beschleunigung konditionaler Diffusionsmodelle

papers.abstract

Diese Arbeit präsentiert eine umfassende Studie zur Rolle von Classifier-Free Guidance (CFG) in textbedingten Diffusionsmodellen aus der Perspektive der Inferenzeffizienz. Insbesondere lockern wir die Standardwahl, CFG in allen Diffusionsschritten anzuwenden, und suchen stattdessen nach effizienten Guidance-Strategien. Wir formulieren die Entdeckung solcher Strategien im Rahmen des differenzierbaren Neural Architecture Search. Unsere Ergebnisse deuten darauf hin, dass die von CFG vorgeschlagenen Denoising-Schritte zunehmend mit einfachen bedingten Schritten übereinstimmen, was die zusätzliche neuronale Netzwerkevaluation von CFG überflüssig macht, insbesondere in der zweiten Hälfte des Denoising-Prozesses. Aufbauend auf dieser Erkenntnis schlagen wir „Adaptive Guidance“ (AG) vor, eine effiziente Variante von CFG, die Netzwerkevaluationen adaptiv auslässt, wenn der Denoising-Prozess Konvergenz zeigt. Unsere Experimente zeigen, dass AG die Bildqualität von CFG bewahrt, während die Berechnung um 25 % reduziert wird. Somit stellt AG eine Plug-and-Play-Alternative zu Guidance Distillation dar, die 50 % der Beschleunigungen der letzteren erreicht, während sie trainingsfrei ist und die Fähigkeit behält, negative Prompts zu verarbeiten. Schließlich decken wir weitere Redundanzen von CFG in der ersten Hälfte des Diffusionsprozesses auf und zeigen, dass gesamte neuronale Funktionsevaluationen durch einfache affine Transformationen vergangener Score-Schätzungen ersetzt werden können. Diese Methode, genannt LinearAG, bietet noch kostengünstigere Inferenz auf Kosten einer Abweichung vom Basismodell. Unsere Erkenntnisse liefern Einblicke in die Effizienz des bedingten Denoising-Prozesses, die zu einer praktischeren und schnelleren Bereitstellung textbedingter Diffusionsmodelle beitragen.

English

This paper presents a comprehensive study on the role of Classifier-Free Guidance (CFG) in text-conditioned diffusion models from the perspective of inference efficiency. In particular, we relax the default choice of applying CFG in all diffusion steps and instead search for efficient guidance policies. We formulate the discovery of such policies in the differentiable Neural Architecture Search framework. Our findings suggest that the denoising steps proposed by CFG become increasingly aligned with simple conditional steps, which renders the extra neural network evaluation of CFG redundant, especially in the second half of the denoising process. Building upon this insight, we propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively omits network evaluations when the denoising process displays convergence. Our experiments demonstrate that AG preserves CFG's image quality while reducing computation by 25%. Thus, AG constitutes a plug-and-play alternative to Guidance Distillation, achieving 50% of the speed-ups of the latter while being training-free and retaining the capacity to handle negative prompts. Finally, we uncover further redundancies of CFG in the first half of the diffusion process, showing that entire neural function evaluations can be replaced by simple affine transformations of past score estimates. This method, termed LinearAG, offers even cheaper inference at the cost of deviating from the baseline model. Our findings provide insights into the efficiency of the conditional denoising process that contribute to more practical and swift deployment of text-conditioned diffusion models.

Adaptive Guidance: Trainingsfreie Beschleunigung konditionaler Diffusionsmodelle

Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

papers.abstract

Support