ToDo : Sous-échantillonnage de tokens pour une génération efficace d'images haute résolution

papers.abstract

Le mécanisme d'attention a été crucial pour les modèles de diffusion d'images, cependant, leur complexité computationnelle quadratique limite la taille des images que nous pouvons traiter dans des contraintes raisonnables de temps et de mémoire. Cet article étudie l'importance de l'attention dense dans les modèles génératifs d'images, qui contiennent souvent des caractéristiques redondantes, les rendant adaptés à des mécanismes d'attention plus parcimonieux. Nous proposons une nouvelle méthode sans entraînement, ToDo, qui repose sur un sous-échantillonnage des tokens de clé et de valeur pour accélérer l'inférence de Stable Diffusion jusqu'à 2x pour les tailles courantes et jusqu'à 4,5x ou plus pour les hautes résolutions comme 2048x2048. Nous démontrons que notre approche surpasse les méthodes précédentes en équilibrant un débit efficace et la fidélité.

English

Attention mechanism has been crucial for image diffusion models, however, their quadratic computational complexity limits the sizes of images we can process within reasonable time and memory constraints. This paper investigates the importance of dense attention in generative image models, which often contain redundant features, making them suitable for sparser attention mechanisms. We propose a novel training-free method ToDo that relies on token downsampling of key and value tokens to accelerate Stable Diffusion inference by up to 2x for common sizes and up to 4.5x or more for high resolutions like 2048x2048. We demonstrate that our approach outperforms previous methods in balancing efficient throughput and fidelity.

ToDo : Sous-échantillonnage de tokens pour une génération efficace d'images haute résolution

ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

papers.abstract

Support