Guida Adattiva: Accelerazione Senza Addestramento per Modelli di Diffusione Condizionata

Abstract

Questo articolo presenta uno studio approfondito sul ruolo della Classifier-Free Guidance (CFG) nei modelli di diffusione condizionati al testo, con particolare attenzione all'efficienza durante l'inferenza. In particolare, rivediamo la scelta predefinita di applicare la CFG in tutti i passi di diffusione e cerchiamo invece politiche di guida più efficienti. Formuliamo la scoperta di tali politiche all'interno del framework differenziabile di Neural Architecture Search. I nostri risultati suggeriscono che i passi di denoising proposti dalla CFG diventano sempre più allineati con semplici passi condizionali, rendendo ridondante la valutazione aggiuntiva della rete neurale della CFG, specialmente nella seconda metà del processo di denoising. Basandoci su questa intuizione, proponiamo "Adaptive Guidance" (AG), una variante efficiente della CFG, che omette adattivamente le valutazioni della rete quando il processo di denoising mostra convergenza. I nostri esperimenti dimostrano che AG preserva la qualità dell'immagine della CFG riducendo il calcolo del 25%. Pertanto, AG costituisce un'alternativa plug-and-play alla Guidance Distillation, raggiungendo il 50% degli acceleramenti di quest'ultima pur essendo priva di addestramento e mantenendo la capacità di gestire prompt negativi. Infine, scopriamo ulteriori ridondanze della CFG nella prima metà del processo di diffusione, mostrando che intere valutazioni di funzioni neurali possono essere sostituite da semplici trasformazioni affini di stime precedenti del punteggio. Questo metodo, denominato LinearAG, offre un'inferenza ancora più economica al costo di deviare dal modello di base. Le nostre scoperte forniscono intuizioni sull'efficienza del processo di denoising condizionale che contribuiscono a un'implementazione più pratica e rapida dei modelli di diffusione condizionati al testo.

English

This paper presents a comprehensive study on the role of Classifier-Free Guidance (CFG) in text-conditioned diffusion models from the perspective of inference efficiency. In particular, we relax the default choice of applying CFG in all diffusion steps and instead search for efficient guidance policies. We formulate the discovery of such policies in the differentiable Neural Architecture Search framework. Our findings suggest that the denoising steps proposed by CFG become increasingly aligned with simple conditional steps, which renders the extra neural network evaluation of CFG redundant, especially in the second half of the denoising process. Building upon this insight, we propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively omits network evaluations when the denoising process displays convergence. Our experiments demonstrate that AG preserves CFG's image quality while reducing computation by 25%. Thus, AG constitutes a plug-and-play alternative to Guidance Distillation, achieving 50% of the speed-ups of the latter while being training-free and retaining the capacity to handle negative prompts. Finally, we uncover further redundancies of CFG in the first half of the diffusion process, showing that entire neural function evaluations can be replaced by simple affine transformations of past score estimates. This method, termed LinearAG, offers even cheaper inference at the cost of deviating from the baseline model. Our findings provide insights into the efficiency of the conditional denoising process that contribute to more practical and swift deployment of text-conditioned diffusion models.

Guida Adattiva: Accelerazione Senza Addestramento per Modelli di Diffusione Condizionata

Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

Abstract

Support