Guida Adattiva: Accelerazione Senza Addestramento per Modelli di Diffusione Condizionata
Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models
December 19, 2023
Autori: Angela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet
cs.AI
Abstract
Questo articolo presenta uno studio approfondito sul ruolo della Classifier-Free Guidance (CFG) nei modelli di diffusione condizionati al testo, con particolare attenzione all'efficienza durante l'inferenza. In particolare, rivediamo la scelta predefinita di applicare la CFG in tutti i passi di diffusione e cerchiamo invece politiche di guida più efficienti. Formuliamo la scoperta di tali politiche all'interno del framework differenziabile di Neural Architecture Search. I nostri risultati suggeriscono che i passi di denoising proposti dalla CFG diventano sempre più allineati con semplici passi condizionali, rendendo ridondante la valutazione aggiuntiva della rete neurale della CFG, specialmente nella seconda metà del processo di denoising. Basandoci su questa intuizione, proponiamo "Adaptive Guidance" (AG), una variante efficiente della CFG, che omette adattivamente le valutazioni della rete quando il processo di denoising mostra convergenza. I nostri esperimenti dimostrano che AG preserva la qualità dell'immagine della CFG riducendo il calcolo del 25%. Pertanto, AG costituisce un'alternativa plug-and-play alla Guidance Distillation, raggiungendo il 50% degli acceleramenti di quest'ultima pur essendo priva di addestramento e mantenendo la capacità di gestire prompt negativi. Infine, scopriamo ulteriori ridondanze della CFG nella prima metà del processo di diffusione, mostrando che intere valutazioni di funzioni neurali possono essere sostituite da semplici trasformazioni affini di stime precedenti del punteggio. Questo metodo, denominato LinearAG, offre un'inferenza ancora più economica al costo di deviare dal modello di base. Le nostre scoperte forniscono intuizioni sull'efficienza del processo di denoising condizionale che contribuiscono a un'implementazione più pratica e rapida dei modelli di diffusione condizionati al testo.
English
This paper presents a comprehensive study on the role of Classifier-Free
Guidance (CFG) in text-conditioned diffusion models from the perspective of
inference efficiency. In particular, we relax the default choice of applying
CFG in all diffusion steps and instead search for efficient guidance policies.
We formulate the discovery of such policies in the differentiable Neural
Architecture Search framework. Our findings suggest that the denoising steps
proposed by CFG become increasingly aligned with simple conditional steps,
which renders the extra neural network evaluation of CFG redundant, especially
in the second half of the denoising process. Building upon this insight, we
propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively
omits network evaluations when the denoising process displays convergence. Our
experiments demonstrate that AG preserves CFG's image quality while reducing
computation by 25%. Thus, AG constitutes a plug-and-play alternative to
Guidance Distillation, achieving 50% of the speed-ups of the latter while being
training-free and retaining the capacity to handle negative prompts. Finally,
we uncover further redundancies of CFG in the first half of the diffusion
process, showing that entire neural function evaluations can be replaced by
simple affine transformations of past score estimates. This method, termed
LinearAG, offers even cheaper inference at the cost of deviating from the
baseline model. Our findings provide insights into the efficiency of the
conditional denoising process that contribute to more practical and swift
deployment of text-conditioned diffusion models.