ChatPaper.aiChatPaper

La Cross-Attention Rende l'Inferenza Macchinosa nei Modelli di Diffusione da Testo a Immagine

Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

April 3, 2024
Autori: Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber
cs.AI

Abstract

Questo studio esplora il ruolo della cross-attention durante l'inferenza nei modelli di diffusione condizionati al testo. Scopriamo che gli output della cross-attention convergono a un punto fisso dopo pochi passi di inferenza. Di conseguenza, il momento della convergenza divide naturalmente l'intero processo di inferenza in due fasi: una fase iniziale di pianificazione semantica, durante la quale il modello si affida alla cross-attention per pianificare la semantica visiva orientata al testo, e una fase successiva di miglioramento della fedeltà, durante la quale il modello cerca di generare immagini a partire dalla semantica precedentemente pianificata. Sorprendentemente, ignorare le condizioni testuali nella fase di miglioramento della fedeltà non solo riduce la complessità computazionale, ma mantiene anche le prestazioni del modello. Ciò porta a un metodo semplice e privo di addestramento chiamato TGATE per la generazione efficiente, che memorizza nella cache l'output della cross-attention una volta che converge e lo mantiene fisso durante i restanti passi di inferenza. Il nostro studio empirico sul set di validazione di MS-COCO ne conferma l'efficacia. Il codice sorgente di TGATE è disponibile all'indirizzo https://github.com/HaozheLiu-ST/T-GATE.
English
This study explores the role of cross-attention during inference in text-conditional diffusion models. We find that cross-attention outputs converge to a fixed point after few inference steps. Accordingly, the time point of convergence naturally divides the entire inference process into two stages: an initial semantics-planning stage, during which, the model relies on cross-attention to plan text-oriented visual semantics, and a subsequent fidelity-improving stage, during which the model tries to generate images from previously planned semantics. Surprisingly, ignoring text conditions in the fidelity-improving stage not only reduces computation complexity, but also maintains model performance. This yields a simple and training-free method called TGATE for efficient generation, which caches the cross-attention output once it converges and keeps it fixed during the remaining inference steps. Our empirical study on the MS-COCO validation set confirms its effectiveness. The source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.
PDF131November 26, 2024