Skrr: Überspringen und Wiederverwenden von Text-Codierungsschichten für speicher-effiziente Text-zu-Bild-Generierung
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
February 12, 2025
Autoren: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun
cs.AI
Zusammenfassung
Groß angelegte Textkodierer in Text-zu-Bild (T2I) Diffusionsmodellen haben eine außergewöhnliche Leistung bei der Erzeugung hochwertiger Bilder aus textuellen Eingaben gezeigt. Im Gegensatz zu Rauschunterdrückungsmodulen, die auf mehreren iterativen Schritten beruhen, benötigen Textkodierer nur einen einzigen Vorwärtsschritt, um Texteinbettungen zu erzeugen. Trotz ihres minimalen Beitrags zur Gesamtinferenzzeit und den Gleitkommaoperationen (FLOPs) erfordern Textkodierer jedoch signifikant höheren Speicherverbrauch, bis zu achtmal mehr als Rauschunterdrückungsmodule. Um diese Ineffizienz zu beheben, schlagen wir Skip and Re-use-Schichten (Skrr) vor, eine einfache, aber effektive Beschneidungsstrategie, die speziell für Textkodierer in T2I-Diffusionsmodellen entwickelt wurde. Skrr nutzt die inhärente Redundanz in Transformerblöcken aus, indem bestimmte Schichten selektiv übersprungen oder wiederverwendet werden, auf eine Weise, die für T2I-Aufgaben maßgeschneidert ist, wodurch der Speicherverbrauch reduziert wird, ohne die Leistung zu beeinträchtigen. Umfangreiche Experimente zeigen, dass Skrr die Bildqualität vergleichbar mit dem Originalmodell auch bei hohen Sparsamkeitsniveaus beibehält und bestehende blockweise Beschneidungsmethoden übertrifft. Darüber hinaus erreicht Skrr eine Speichereffizienz auf dem neuesten Stand der Technik und bewahrt die Leistung über mehrere Bewertungsmetriken hinweg, einschließlich der FID, CLIP, DreamSim und GenEval-Werte.
English
Large-scale text encoders in text-to-image (T2I) diffusion models have
demonstrated exceptional performance in generating high-quality images from
textual prompts. Unlike denoising modules that rely on multiple iterative
steps, text encoders require only a single forward pass to produce text
embeddings. However, despite their minimal contribution to total inference time
and floating-point operations (FLOPs), text encoders demand significantly
higher memory usage, up to eight times more than denoising modules. To address
this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet
effective pruning strategy specifically designed for text encoders in T2I
diffusion models. Skrr exploits the inherent redundancy in transformer blocks
by selectively skipping or reusing certain layers in a manner tailored for T2I
tasks, thereby reducing memory consumption without compromising performance.
Extensive experiments demonstrate that Skrr maintains image quality comparable
to the original model even under high sparsity levels, outperforming existing
blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory
efficiency while preserving performance across multiple evaluation metrics,
including the FID, CLIP, DreamSim, and GenEval scores.Summary
AI-Generated Summary