ChatPaper.aiChatPaper

ToDo: Token Downsampling voor Efficiënte Generatie van Hoogwaardige Afbeeldingen

ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

February 21, 2024
Auteurs: Ethan Smith, Nayan Saxena, Aninda Saha
cs.AI

Samenvatting

Het aandachtmechanisme is cruciaal geweest voor beelddiffusiemodellen, maar hun kwadratische rekencomplexiteit beperkt de grootte van de afbeeldingen die we binnen redelijke tijd- en geheugenbeperkingen kunnen verwerken. Dit artikel onderzoekt het belang van dichte aandacht in generatieve beeldmodellen, die vaak overbodige kenmerken bevatten, waardoor ze geschikt zijn voor spaarzamere aandachtmechanismen. We stellen een nieuwe trainingsvrije methode ToDo voor die vertrouwt op token-downsampling van sleutel- en waardetokens om de inferentie van Stable Diffusion te versnellen met tot 2x voor gangbare formaten en tot 4.5x of meer voor hoge resoluties zoals 2048x2048. We tonen aan dat onze aanpak vorige methoden overtreft in het balanceren van efficiënte doorvoer en getrouwheid.
English
Attention mechanism has been crucial for image diffusion models, however, their quadratic computational complexity limits the sizes of images we can process within reasonable time and memory constraints. This paper investigates the importance of dense attention in generative image models, which often contain redundant features, making them suitable for sparser attention mechanisms. We propose a novel training-free method ToDo that relies on token downsampling of key and value tokens to accelerate Stable Diffusion inference by up to 2x for common sizes and up to 4.5x or more for high resolutions like 2048x2048. We demonstrate that our approach outperforms previous methods in balancing efficient throughput and fidelity.
PDF101February 8, 2026