ToDo : Sous-échantillonnage de tokens pour une génération efficace d'images haute résolution
ToDo: Token Downsampling for Efficient Generation of High-Resolution Images
February 21, 2024
Auteurs: Ethan Smith, Nayan Saxena, Aninda Saha
cs.AI
Résumé
Le mécanisme d'attention a été crucial pour les modèles de diffusion d'images, cependant, leur complexité computationnelle quadratique limite la taille des images que nous pouvons traiter dans des contraintes raisonnables de temps et de mémoire. Cet article étudie l'importance de l'attention dense dans les modèles génératifs d'images, qui contiennent souvent des caractéristiques redondantes, les rendant adaptés à des mécanismes d'attention plus parcimonieux. Nous proposons une nouvelle méthode sans entraînement, ToDo, qui repose sur un sous-échantillonnage des tokens de clé et de valeur pour accélérer l'inférence de Stable Diffusion jusqu'à 2x pour les tailles courantes et jusqu'à 4,5x ou plus pour les hautes résolutions comme 2048x2048. Nous démontrons que notre approche surpasse les méthodes précédentes en équilibrant un débit efficace et la fidélité.
English
Attention mechanism has been crucial for image diffusion models, however,
their quadratic computational complexity limits the sizes of images we can
process within reasonable time and memory constraints. This paper investigates
the importance of dense attention in generative image models, which often
contain redundant features, making them suitable for sparser attention
mechanisms. We propose a novel training-free method ToDo that relies on token
downsampling of key and value tokens to accelerate Stable Diffusion inference
by up to 2x for common sizes and up to 4.5x or more for high resolutions like
2048x2048. We demonstrate that our approach outperforms previous methods in
balancing efficient throughput and fidelity.Summary
AI-Generated Summary