ChatPaper.aiChatPaper

Kreuz-Aufmerksamkeit macht Inferenz in Text-zu-Bild-Diffusionsmodellen umständlich.

Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

April 3, 2024
Autoren: Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber
cs.AI

Zusammenfassung

Diese Studie untersucht die Rolle der Kreuz-Aufmerksamkeit während der Inferenz in textbedingten Diffusionsmodellen. Wir stellen fest, dass die Ausgaben der Kreuz-Aufmerksamkeit nach wenigen Inferenzschritten auf einen Fixpunkt konvergieren. Dementsprechend teilt der Konvergenzzeitpunkt natürlich den gesamten Inferenzprozess in zwei Phasen auf: eine anfängliche Semantik-Planungsphase, während der das Modell auf die Kreuz-Aufmerksamkeit angewiesen ist, um textorientierte visuelle Semantik zu planen, und eine nachfolgende Genauigkeitsverbesserungsphase, während der das Modell versucht, Bilder aus zuvor geplanter Semantik zu generieren. Überraschenderweise reduziert das Ignorieren von Textbedingungen in der Genauigkeitsverbesserungsphase nicht nur die Rechenkomplexität, sondern erhält auch die Modellleistung. Dies führt zu einer einfachen und trainingsfreien Methode namens TGATE für effiziente Generierung, die die Ausgabe der Kreuz-Aufmerksamkeit zwischenspeichert, sobald sie konvergiert, und sie während der verbleibenden Inferenzschritte konstant hält. Unsere empirische Studie am MS-COCO-Validierungsset bestätigt deren Wirksamkeit. Der Quellcode von TGATE ist unter https://github.com/HaozheLiu-ST/T-GATE verfügbar.
English
This study explores the role of cross-attention during inference in text-conditional diffusion models. We find that cross-attention outputs converge to a fixed point after few inference steps. Accordingly, the time point of convergence naturally divides the entire inference process into two stages: an initial semantics-planning stage, during which, the model relies on cross-attention to plan text-oriented visual semantics, and a subsequent fidelity-improving stage, during which the model tries to generate images from previously planned semantics. Surprisingly, ignoring text conditions in the fidelity-improving stage not only reduces computation complexity, but also maintains model performance. This yields a simple and training-free method called TGATE for efficient generation, which caches the cross-attention output once it converges and keeps it fixed during the remaining inference steps. Our empirical study on the MS-COCO validation set confirms its effectiveness. The source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.

Summary

AI-Generated Summary

PDF131November 26, 2024