ChatPaper.aiChatPaper

Перекрестное внимание делает выводы сложными в моделях диффузии текста в изображение.

Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

April 3, 2024
Авторы: Wentian Zhang, Haozhe Liu, Jinheng Xie, Francesco Faccio, Mike Zheng Shou, Jürgen Schmidhuber
cs.AI

Аннотация

Данное исследование исследует роль кросс-внимания во время вывода в текстово-условных моделях диффузии. Мы обнаружили, что выходы кросс-внимания сходятся к фиксированной точке после нескольких шагов вывода. Следовательно, момент сходимости естественным образом делит весь процесс вывода на две стадии: начальную стадию планирования семантики, во время которой модель полагается на кросс-внимание для планирования текстоориентированной визуальной семантики, и последующую стадию улучшения достоверности, во время которой модель пытается генерировать изображения из заранее запланированной семантики. Удивительно, что игнорирование текстовых условий на стадии улучшения достоверности не только снижает сложность вычислений, но и сохраняет производительность модели. Это приводит к простому и не требующему обучения методу, названному TGATE для эффективной генерации, который кэширует выход кросс-внимания после его сходимости и сохраняет его неизменным во время оставшихся шагов вывода. Наше эмпирическое исследование на проверочном наборе данных MS-COCO подтверждает его эффективность. Исходный код TGATE доступен по адресу https://github.com/HaozheLiu-ST/T-GATE.
English
This study explores the role of cross-attention during inference in text-conditional diffusion models. We find that cross-attention outputs converge to a fixed point after few inference steps. Accordingly, the time point of convergence naturally divides the entire inference process into two stages: an initial semantics-planning stage, during which, the model relies on cross-attention to plan text-oriented visual semantics, and a subsequent fidelity-improving stage, during which the model tries to generate images from previously planned semantics. Surprisingly, ignoring text conditions in the fidelity-improving stage not only reduces computation complexity, but also maintains model performance. This yields a simple and training-free method called TGATE for efficient generation, which caches the cross-attention output once it converges and keeps it fixed during the remaining inference steps. Our empirical study on the MS-COCO validation set confirms its effectiveness. The source code of TGATE is available at https://github.com/HaozheLiu-ST/T-GATE.

Summary

AI-Generated Summary

PDF131November 26, 2024