La Atención Cruzada Hace Engorrosa la Inferencia en Modelos de Difusión de Texto a Imagen

Resumen

Este estudio explora el papel de la atención cruzada durante la inferencia en modelos de difusión condicionados por texto. Descubrimos que las salidas de la atención cruzada convergen a un punto fijo después de pocos pasos de inferencia. En consecuencia, el momento de convergencia divide naturalmente todo el proceso de inferencia en dos etapas: una etapa inicial de planificación semántica, durante la cual el modelo se basa en la atención cruzada para planificar semánticas visuales orientadas al texto, y una etapa posterior de mejora de la fidelidad, durante la cual el modelo intenta generar imágenes a partir de las semánticas previamente planificadas. Sorprendentemente, ignorar las condiciones de texto en la etapa de mejora de la fidelidad no solo reduce la complejidad computacional, sino que también mantiene el rendimiento del modelo. Esto da lugar a un método simple y sin necesidad de entrenamiento llamado TGATE para la generación eficiente, que almacena en caché la salida de la atención cruzada una vez que converge y la mantiene fija durante los pasos restantes de inferencia. Nuestro estudio empírico en el conjunto de validación de MS-COCO confirma su efectividad. El código fuente de TGATE está disponible en https://github.com/HaozheLiu-ST/T-GATE.

English

This study explores the role of cross-attention during inference in text-conditional diffusion models. We find that cross-attention outputs converge to a fixed point after few inference steps. Accordingly, the time point of convergence naturally divides the entire inference process into two stages: an initial semantics-planning stage, during which, the model relies on cross-attention to plan text-oriented visual semantics, and a subsequent fidelity-improving stage, during which the model tries to generate images from previously planned semantics. Surprisingly, ignoring text conditions in the fidelity-improving stage not only reduces computation complexity, but also maintains model performance. This yields a simple and training-free method called TGATE for efficient generation, which caches the cross-attention output once it converges and keeps it fixed during the remaining inference steps. Our empirical study on the MS-COCO validation set confirms its effectiveness. The source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.

La Atención Cruzada Hace Engorrosa la Inferencia en Modelos de Difusión de Texto a Imagen

Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

Resumen

Support