Guidance Adaptative : Accélération sans entraînement des modèles de diffusion conditionnels
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models
December 19, 2023
Auteurs: Angela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet
cs.AI
Résumé
Cet article présente une étude approfondie sur le rôle du guidage sans classifieur (Classifier-Free Guidance, CFG) dans les modèles de diffusion conditionnés par le texte, en se focalisant sur l'efficacité lors de l'inférence. Plus précisément, nous remettons en question le choix par défaut d'appliquer le CFG à toutes les étapes de diffusion et explorons plutôt des politiques de guidage plus efficaces. Nous formulons la découverte de ces politiques dans le cadre de la recherche d'architecture neuronale différentiable. Nos résultats suggèrent que les étapes de débruîtage proposées par le CFG s'alignent de plus en plus avec des étapes conditionnelles simples, ce qui rend l'évaluation supplémentaire du réseau neuronal par le CFG redondante, en particulier dans la seconde moitié du processus de débruîtage. Sur la base de cette observation, nous proposons le "Guidage Adaptatif" (Adaptive Guidance, AG), une variante efficace du CFG, qui omet de manière adaptative les évaluations du réseau lorsque le processus de débruîtage montre des signes de convergence. Nos expériences démontrent que AG préserve la qualité d'image du CFG tout en réduisant les calculs de 25 %. Ainsi, AG constitue une alternative prête à l'emploi à la distillation de guidage, atteignant 50 % des gains de vitesse de cette dernière tout en étant exempt de phase d'entraînement et en conservant la capacité à gérer les prompts négatifs. Enfin, nous mettons en évidence d'autres redondances du CFG dans la première moitié du processus de diffusion, montrant que des évaluations complètes de fonctions neuronales peuvent être remplacées par de simples transformations affines des estimations de scores passées. Cette méthode, appelée LinearAG, offre une inférence encore moins coûteuse au prix d'un écart par rapport au modèle de référence. Nos découvertes apportent des éclairages sur l'efficacité du processus de débruîtage conditionné, contribuant à un déploiement plus pratique et rapide des modèles de diffusion conditionnés par le texte.
English
This paper presents a comprehensive study on the role of Classifier-Free
Guidance (CFG) in text-conditioned diffusion models from the perspective of
inference efficiency. In particular, we relax the default choice of applying
CFG in all diffusion steps and instead search for efficient guidance policies.
We formulate the discovery of such policies in the differentiable Neural
Architecture Search framework. Our findings suggest that the denoising steps
proposed by CFG become increasingly aligned with simple conditional steps,
which renders the extra neural network evaluation of CFG redundant, especially
in the second half of the denoising process. Building upon this insight, we
propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively
omits network evaluations when the denoising process displays convergence. Our
experiments demonstrate that AG preserves CFG's image quality while reducing
computation by 25%. Thus, AG constitutes a plug-and-play alternative to
Guidance Distillation, achieving 50% of the speed-ups of the latter while being
training-free and retaining the capacity to handle negative prompts. Finally,
we uncover further redundancies of CFG in the first half of the diffusion
process, showing that entire neural function evaluations can be replaced by
simple affine transformations of past score estimates. This method, termed
LinearAG, offers even cheaper inference at the cost of deviating from the
baseline model. Our findings provide insights into the efficiency of the
conditional denoising process that contribute to more practical and swift
deployment of text-conditioned diffusion models.