ChatPaper.aiChatPaper

Orientação Adaptativa: Aceleração sem Treinamento de Modelos de Difusão Condicional

Adaptive Guidance: Training-free Acceleration of Conditional Diffusion Models

December 19, 2023
Autores: Angela Castillo, Jonas Kohler, Juan C. Pérez, Juan Pablo Pérez, Albert Pumarola, Bernard Ghanem, Pablo Arbeláez, Ali Thabet
cs.AI

Resumo

Este artigo apresenta um estudo abrangente sobre o papel da Orientação Livre de Classificador (Classifier-Free Guidance - CFG) em modelos de difusão condicionados por texto, sob a perspectiva da eficiência de inferência. Em particular, relaxamos a escolha padrão de aplicar CFG em todas as etapas de difusão e, em vez disso, buscamos políticas de orientação eficientes. Formulamos a descoberta dessas políticas no framework diferenciável de Busca de Arquitetura Neural (Neural Architecture Search). Nossos achados sugerem que as etapas de remoção de ruído propostas pela CFG se alinham cada vez mais com etapas condicionais simples, o que torna a avaliação adicional da rede neural da CFG redundante, especialmente na segunda metade do processo de remoção de ruído. Com base nessa percepção, propomos "Orientação Adaptativa" (Adaptive Guidance - AG), uma variante eficiente da CFG, que omite adaptativamente as avaliações da rede neural quando o processo de remoção de ruído apresenta convergência. Nossos experimentos demonstram que a AG preserva a qualidade da imagem da CFG enquanto reduz a computação em 25%. Assim, a AG constitui uma alternativa plug-and-play à Distilação de Orientação (Guidance Distillation), alcançando 50% dos ganhos de velocidade desta última, ao mesmo tempo em que é livre de treinamento e mantém a capacidade de lidar com prompts negativos. Por fim, descobrimos redundâncias adicionais da CFG na primeira metade do processo de difusão, mostrando que avaliações completas de funções neurais podem ser substituídas por transformações afins simples de estimativas anteriores de scores. Esse método, denominado LinearAG, oferece uma inferência ainda mais barata ao custo de se desviar do modelo de referência. Nossos achados fornecem insights sobre a eficiência do processo de remoção de ruído condicional, contribuindo para uma implantação mais prática e rápida de modelos de difusão condicionados por texto.
English
This paper presents a comprehensive study on the role of Classifier-Free Guidance (CFG) in text-conditioned diffusion models from the perspective of inference efficiency. In particular, we relax the default choice of applying CFG in all diffusion steps and instead search for efficient guidance policies. We formulate the discovery of such policies in the differentiable Neural Architecture Search framework. Our findings suggest that the denoising steps proposed by CFG become increasingly aligned with simple conditional steps, which renders the extra neural network evaluation of CFG redundant, especially in the second half of the denoising process. Building upon this insight, we propose "Adaptive Guidance" (AG), an efficient variant of CFG, that adaptively omits network evaluations when the denoising process displays convergence. Our experiments demonstrate that AG preserves CFG's image quality while reducing computation by 25%. Thus, AG constitutes a plug-and-play alternative to Guidance Distillation, achieving 50% of the speed-ups of the latter while being training-free and retaining the capacity to handle negative prompts. Finally, we uncover further redundancies of CFG in the first half of the diffusion process, showing that entire neural function evaluations can be replaced by simple affine transformations of past score estimates. This method, termed LinearAG, offers even cheaper inference at the cost of deviating from the baseline model. Our findings provide insights into the efficiency of the conditional denoising process that contribute to more practical and swift deployment of text-conditioned diffusion models.
PDF90December 15, 2024