Skrr: Overslaan en Hergebruiken van Tekstcoderingslagen voor Geheugenefficiënte Tekst-naar-Afbeelding Generatie
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
February 12, 2025
Auteurs: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun
cs.AI
Samenvatting
Grote tekstencoders in tekst-naar-afbeelding (T2I) diffusiemodellen hebben uitzonderlijke prestaties aangetoond bij het genereren van hoogwaardige afbeeldingen op basis van tekstuele aanwijzingen. In tegenstelling tot denoisingsmodules die vertrouwen op meerdere iteratieve stappen, hebben tekstencoders slechts één forward pass nodig om tekst-embeddings te produceren. Echter, ondanks hun minimale bijdrage aan de totale inferentietijd en floating-point bewerkingen (FLOPs), vereisen tekstencoders aanzienlijk meer geheugengebruik, tot wel acht keer meer dan denoisingsmodules. Om deze inefficiëntie aan te pakken, stellen we Skip and Re-use layers (Skrr) voor, een eenvoudige maar effectieve snoeistrategie die specifiek is ontworpen voor tekstencoders in T2I diffusiemodellen. Skrr maakt gebruik van de inherente redundantie in transformerblokken door selectief bepaalde lagen over te slaan of opnieuw te gebruiken op een manier die is afgestemd op T2I-taken, waardoor het geheugengebruik wordt verminderd zonder de prestaties in gevaar te brengen. Uitgebreide experimenten tonen aan dat Skrr de beeldkwaliteit vergelijkbaar met het oorspronkelijke model behoudt, zelfs bij hoge spaarheidsniveaus, en bestaande bloksgewijze snoeimethoden overtreft. Bovendien bereikt Skrr een state-of-the-art geheugenefficiëntie terwijl het de prestaties behoudt over meerdere evaluatiemetrics, waaronder de FID, CLIP, DreamSim en GenEval scores.
English
Large-scale text encoders in text-to-image (T2I) diffusion models have
demonstrated exceptional performance in generating high-quality images from
textual prompts. Unlike denoising modules that rely on multiple iterative
steps, text encoders require only a single forward pass to produce text
embeddings. However, despite their minimal contribution to total inference time
and floating-point operations (FLOPs), text encoders demand significantly
higher memory usage, up to eight times more than denoising modules. To address
this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet
effective pruning strategy specifically designed for text encoders in T2I
diffusion models. Skrr exploits the inherent redundancy in transformer blocks
by selectively skipping or reusing certain layers in a manner tailored for T2I
tasks, thereby reducing memory consumption without compromising performance.
Extensive experiments demonstrate that Skrr maintains image quality comparable
to the original model even under high sparsity levels, outperforming existing
blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory
efficiency while preserving performance across multiple evaluation metrics,
including the FID, CLIP, DreamSim, and GenEval scores.Summary
AI-Generated Summary