ToDo: Token-Downsampling für die effiziente Erzeugung hochauflösender Bilder
ToDo: Token Downsampling for Efficient Generation of High-Resolution Images
February 21, 2024
Autoren: Ethan Smith, Nayan Saxena, Aninda Saha
cs.AI
Zusammenfassung
Der Aufmerksamkeitsmechanismus war entscheidend für Bilddiffusionsmodelle, jedoch
begrenzt deren quadratische Rechenkomplexität die Größen der Bilder, die wir
innerhalb angemessener Zeit- und Speicherbeschränkungen verarbeiten können. Diese
Arbeit untersucht die Bedeutung von dichter Aufmerksamkeit in generativen
Bildmodellen, die oft redundante Merkmale enthalten, was sie für spärlichere
Aufmerksamkeitsmechanismen geeignet macht. Wir schlagen eine neuartige,
trainingsfreie Methode namens ToDo vor, die sich auf das Token-Downsampling von
Schlüssel- und Wert-Tokens stützt, um die Inferenz von Stable Diffusion um bis zu
2x für gängige Größen und bis zu 4,5x oder mehr für hohe Auflösungen wie 2048x2048
zu beschleunigen. Wir zeigen, dass unser Ansatz bisherige Methoden in der Balance
zwischen effizientem Durchsatz und Bildtreue übertrifft.
English
Attention mechanism has been crucial for image diffusion models, however,
their quadratic computational complexity limits the sizes of images we can
process within reasonable time and memory constraints. This paper investigates
the importance of dense attention in generative image models, which often
contain redundant features, making them suitable for sparser attention
mechanisms. We propose a novel training-free method ToDo that relies on token
downsampling of key and value tokens to accelerate Stable Diffusion inference
by up to 2x for common sizes and up to 4.5x or more for high resolutions like
2048x2048. We demonstrate that our approach outperforms previous methods in
balancing efficient throughput and fidelity.