ToDo: Token Downsampling voor Efficiënte Generatie van Hoogwaardige Afbeeldingen
ToDo: Token Downsampling for Efficient Generation of High-Resolution Images
February 21, 2024
Auteurs: Ethan Smith, Nayan Saxena, Aninda Saha
cs.AI
Samenvatting
Het aandachtmechanisme is cruciaal geweest voor beelddiffusiemodellen, maar
hun kwadratische rekencomplexiteit beperkt de grootte van de afbeeldingen die we
binnen redelijke tijd- en geheugenbeperkingen kunnen verwerken. Dit artikel
onderzoekt het belang van dichte aandacht in generatieve beeldmodellen, die vaak
overbodige kenmerken bevatten, waardoor ze geschikt zijn voor spaarzamere
aandachtmechanismen. We stellen een nieuwe trainingsvrije methode ToDo voor die
vertrouwt op token-downsampling van sleutel- en waardetokens om de inferentie
van Stable Diffusion te versnellen met tot 2x voor gangbare formaten en tot 4.5x
of meer voor hoge resoluties zoals 2048x2048. We tonen aan dat onze aanpak
vorige methoden overtreft in het balanceren van efficiënte doorvoer en
getrouwheid.
English
Attention mechanism has been crucial for image diffusion models, however,
their quadratic computational complexity limits the sizes of images we can
process within reasonable time and memory constraints. This paper investigates
the importance of dense attention in generative image models, which often
contain redundant features, making them suitable for sparser attention
mechanisms. We propose a novel training-free method ToDo that relies on token
downsampling of key and value tokens to accelerate Stable Diffusion inference
by up to 2x for common sizes and up to 4.5x or more for high resolutions like
2048x2048. We demonstrate that our approach outperforms previous methods in
balancing efficient throughput and fidelity.