A Atenção Cruzada Torna a Inferência Complexa em Modelos de Difusão de Texto para Imagem
Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
April 3, 2024
Autores: Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber
cs.AI
Resumo
Este estudo explora o papel da atenção cruzada durante a inferência em modelos de difusão condicionados por texto. Descobrimos que as saídas da atenção cruzada convergem para um ponto fixo após poucos passos de inferência. Consequentemente, o momento da convergência naturalmente divide todo o processo de inferência em dois estágios: um estágio inicial de planejamento semântico, durante o qual o modelo depende da atenção cruzada para planejar semânticas visuais orientadas pelo texto, e um estágio subsequente de melhoria de fidelidade, durante o qual o modelo tenta gerar imagens a partir das semânticas previamente planejadas. Surpreendentemente, ignorar as condições de texto no estágio de melhoria de fidelidade não apenas reduz a complexidade computacional, mas também mantém o desempenho do modelo. Isso resulta em um método simples e livre de treinamento chamado TGATE para geração eficiente, que armazena em cache a saída da atenção cruzada assim que ela converge e a mantém fixa durante os passos restantes de inferência. Nosso estudo empírico no conjunto de validação do MS-COCO confirma sua eficácia. O código-fonte do TGATE está disponível em https://github.com/HaozheLiu-ST/T-GATE.
English
This study explores the role of cross-attention during inference in
text-conditional diffusion models. We find that cross-attention outputs
converge to a fixed point after few inference steps. Accordingly, the time
point of convergence naturally divides the entire inference process into two
stages: an initial semantics-planning stage, during which, the model relies on
cross-attention to plan text-oriented visual semantics, and a subsequent
fidelity-improving stage, during which the model tries to generate images from
previously planned semantics. Surprisingly, ignoring text conditions in the
fidelity-improving stage not only reduces computation complexity, but also
maintains model performance. This yields a simple and training-free method
called TGATE for efficient generation, which caches the cross-attention output
once it converges and keeps it fixed during the remaining inference steps. Our
empirical study on the MS-COCO validation set confirms its effectiveness. The
source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.