La Atención Cruzada Hace Engorrosa la Inferencia en Modelos de Difusión de Texto a Imagen
Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models
April 3, 2024
Autores: Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber
cs.AI
Resumen
Este estudio explora el papel de la atención cruzada durante la inferencia en modelos de difusión condicionados por texto. Descubrimos que las salidas de la atención cruzada convergen a un punto fijo después de pocos pasos de inferencia. En consecuencia, el momento de convergencia divide naturalmente todo el proceso de inferencia en dos etapas: una etapa inicial de planificación semántica, durante la cual el modelo se basa en la atención cruzada para planificar semánticas visuales orientadas al texto, y una etapa posterior de mejora de la fidelidad, durante la cual el modelo intenta generar imágenes a partir de las semánticas previamente planificadas. Sorprendentemente, ignorar las condiciones de texto en la etapa de mejora de la fidelidad no solo reduce la complejidad computacional, sino que también mantiene el rendimiento del modelo. Esto da lugar a un método simple y sin necesidad de entrenamiento llamado TGATE para la generación eficiente, que almacena en caché la salida de la atención cruzada una vez que converge y la mantiene fija durante los pasos restantes de inferencia. Nuestro estudio empírico en el conjunto de validación de MS-COCO confirma su efectividad. El código fuente de TGATE está disponible en https://github.com/HaozheLiu-ST/T-GATE.
English
This study explores the role of cross-attention during inference in
text-conditional diffusion models. We find that cross-attention outputs
converge to a fixed point after few inference steps. Accordingly, the time
point of convergence naturally divides the entire inference process into two
stages: an initial semantics-planning stage, during which, the model relies on
cross-attention to plan text-oriented visual semantics, and a subsequent
fidelity-improving stage, during which the model tries to generate images from
previously planned semantics. Surprisingly, ignoring text conditions in the
fidelity-improving stage not only reduces computation complexity, but also
maintains model performance. This yields a simple and training-free method
called TGATE for efficient generation, which caches the cross-attention output
once it converges and keeps it fixed during the remaining inference steps. Our
empirical study on the MS-COCO validation set confirms its effectiveness. The
source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.