L'attention croisée rend l'inférence laborieuse dans les modèles de diffusion texte-image.
Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
April 3, 2024
Auteurs: Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber
cs.AI
Résumé
Cette étude explore le rôle de l'attention croisée lors de l'inférence dans les modèles de diffusion conditionnés par le texte. Nous constatons que les sorties de l'attention croisée convergent vers un point fixe après quelques étapes d'inférence. Par conséquent, le moment de la convergence divise naturellement le processus d'inférence entier en deux étapes : une étape initiale de planification sémantique, durant laquelle le modèle s'appuie sur l'attention croisée pour planifier la sémantique visuelle orientée par le texte, et une étape ultérieure d'amélioration de la fidélité, durant laquelle le modèle tente de générer des images à partir de la sémantique précédemment planifiée. Étonnamment, ignorer les conditions textuelles dans l'étape d'amélioration de la fidélité non seulement réduit la complexité computationnelle, mais maintient également la performance du modèle. Cela donne lieu à une méthode simple et sans entraînement appelée TGATE pour une génération efficace, qui met en cache la sortie de l'attention croisée une fois qu'elle converge et la maintient fixe durant les étapes restantes de l'inférence. Notre étude empirique sur l'ensemble de validation MS-COCO confirme son efficacité. Le code source de TGATE est disponible à l'adresse https://github.com/HaozheLiu-ST/T-GATE.
English
This study explores the role of cross-attention during inference in
text-conditional diffusion models. We find that cross-attention outputs
converge to a fixed point after few inference steps. Accordingly, the time
point of convergence naturally divides the entire inference process into two
stages: an initial semantics-planning stage, during which, the model relies on
cross-attention to plan text-oriented visual semantics, and a subsequent
fidelity-improving stage, during which the model tries to generate images from
previously planned semantics. Surprisingly, ignoring text conditions in the
fidelity-improving stage not only reduces computation complexity, but also
maintains model performance. This yields a simple and training-free method
called TGATE for efficient generation, which caches the cross-attention output
once it converges and keeps it fixed during the remaining inference steps. Our
empirical study on the MS-COCO validation set confirms its effectiveness. The
source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.Summary
AI-Generated Summary