La Cross-Attention Rende l'Inferenza Macchinosa nei Modelli di Diffusione da Testo a Immagine
Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
April 3, 2024
Autori: Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber
cs.AI
Abstract
Questo studio esplora il ruolo della cross-attention durante l'inferenza nei modelli di diffusione condizionati al testo. Scopriamo che gli output della cross-attention convergono a un punto fisso dopo pochi passi di inferenza. Di conseguenza, il momento della convergenza divide naturalmente l'intero processo di inferenza in due fasi: una fase iniziale di pianificazione semantica, durante la quale il modello si affida alla cross-attention per pianificare la semantica visiva orientata al testo, e una fase successiva di miglioramento della fedeltà, durante la quale il modello cerca di generare immagini a partire dalla semantica precedentemente pianificata. Sorprendentemente, ignorare le condizioni testuali nella fase di miglioramento della fedeltà non solo riduce la complessità computazionale, ma mantiene anche le prestazioni del modello. Ciò porta a un metodo semplice e privo di addestramento chiamato TGATE per la generazione efficiente, che memorizza nella cache l'output della cross-attention una volta che converge e lo mantiene fisso durante i restanti passi di inferenza. Il nostro studio empirico sul set di validazione di MS-COCO ne conferma l'efficacia. Il codice sorgente di TGATE è disponibile all'indirizzo https://github.com/HaozheLiu-ST/T-GATE.
English
This study explores the role of cross-attention during inference in
text-conditional diffusion models. We find that cross-attention outputs
converge to a fixed point after few inference steps. Accordingly, the time
point of convergence naturally divides the entire inference process into two
stages: an initial semantics-planning stage, during which, the model relies on
cross-attention to plan text-oriented visual semantics, and a subsequent
fidelity-improving stage, during which the model tries to generate images from
previously planned semantics. Surprisingly, ignoring text conditions in the
fidelity-improving stage not only reduces computation complexity, but also
maintains model performance. This yields a simple and training-free method
called TGATE for efficient generation, which caches the cross-attention output
once it converges and keeps it fixed during the remaining inference steps. Our
empirical study on the MS-COCO validation set confirms its effectiveness. The
source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.