Guidance Adaptative : Accélération sans entraînement des modèles de diffusion conditionnels

papers.abstract

Cet article présente une étude approfondie sur le rôle du guidage sans classifieur (Classifier-Free Guidance, CFG) dans les modèles de diffusion conditionnés par le texte, en se focalisant sur l'efficacité lors de l'inférence. Plus précisément, nous remettons en question le choix par défaut d'appliquer le CFG à toutes les étapes de diffusion et explorons plutôt des politiques de guidage plus efficaces. Nous formulons la découverte de ces politiques dans le cadre de la recherche d'architecture neuronale différentiable. Nos résultats suggèrent que les étapes de débruîtage proposées par le CFG s'alignent de plus en plus avec des étapes conditionnelles simples, ce qui rend l'évaluation supplémentaire du réseau neuronal par le CFG redondante, en particulier dans la seconde moitié du processus de débruîtage. Sur la base de cette observation, nous proposons le "Guidage Adaptatif" (Adaptive Guidance, AG), une variante efficace du CFG, qui omet de manière adaptative les évaluations du réseau lorsque le processus de débruîtage montre des signes de convergence. Nos expériences démontrent que AG préserve la qualité d'image du CFG tout en réduisant les calculs de 25 %. Ainsi, AG constitue une alternative prête à l'emploi à la distillation de guidage, atteignant 50 % des gains de vitesse de cette dernière tout en étant exempt de phase d'entraînement et en conservant la capacité à gérer les prompts négatifs. Enfin, nous mettons en évidence d'autres redondances du CFG dans la première moitié du processus de diffusion, montrant que des évaluations complètes de fonctions neuronales peuvent être remplacées par de simples transformations affines des estimations de scores passées. Cette méthode, appelée LinearAG, offre une inférence encore moins coûteuse au prix d'un écart par rapport au modèle de référence. Nos découvertes apportent des éclairages sur l'efficacité du processus de débruîtage conditionné, contribuant à un déploiement plus pratique et rapide des modèles de diffusion conditionnés par le texte.

English

This paper presents a comprehensive study on the role of Classifier-Free Guidance (CFG) in text-conditioned diffusion models from the perspective of inference efficiency. In particular, we relax the default choice of applying CFG in all diffusion steps and instead search for efficient guidance policies. We formulate the discovery of such policies in the differentiable Neural Architecture Search framework. Our findings suggest that the denoising steps proposed by CFG become increasingly aligned with simple conditional steps, which renders the extra neural network evaluation of CFG redundant, especially in the second half of the denoising process. Building upon this insight, we propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively omits network evaluations when the denoising process displays convergence. Our experiments demonstrate that AG preserves CFG's image quality while reducing computation by 25%. Thus, AG constitutes a plug-and-play alternative to Guidance Distillation, achieving 50% of the speed-ups of the latter while being training-free and retaining the capacity to handle negative prompts. Finally, we uncover further redundancies of CFG in the first half of the diffusion process, showing that entire neural function evaluations can be replaced by simple affine transformations of past score estimates. This method, termed LinearAG, offers even cheaper inference at the cost of deviating from the baseline model. Our findings provide insights into the efficiency of the conditional denoising process that contribute to more practical and swift deployment of text-conditioned diffusion models.

Guidance Adaptative : Accélération sans entraînement des modèles de diffusion conditionnels

Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

papers.abstract

Support