Skrr: Strati di codifica del testo Salta e Riutilizza per una Generazione Testo-Immagine Efficientemente Memorizzabile
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
February 12, 2025
Autori: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun
cs.AI
Abstract
I grandi codificatori di testo su larga scala nei modelli di diffusione testo-immagine (T2I) hanno dimostrato un'eccezionale performance nella generazione di immagini di alta qualità da prompt testuali. A differenza dei moduli di denoising che si basano su molteplici passaggi iterativi, i codificatori di testo richiedono un'unica passata in avanti per produrre embedding di testo. Tuttavia, nonostante il loro contributo minimo al tempo totale di inferenza e alle operazioni in virgola mobile (FLOPs), i codificatori di testo richiedono un utilizzo significativamente maggiore della memoria, fino a otto volte di più rispetto ai moduli di denoising. Per affrontare questa inefficienza, proponiamo strati di Salto e Riutilizzo (Skrr), una strategia di potatura semplice ma efficace progettata specificamente per i codificatori di testo nei modelli di diffusione T2I. Skrr sfrutta la ridondanza intrinseca nei blocchi trasformatore selezionando in modo selettivo lo scarto o il riutilizzo di determinati strati in modo adattato per compiti T2I, riducendo così il consumo di memoria senza compromettere le prestazioni. Estesi esperimenti dimostrano che Skrr mantiene la qualità dell'immagine paragonabile al modello originale anche con elevati livelli di sparsità, superando i metodi esistenti di potatura a livello di blocco. Inoltre, Skrr raggiunge un'efficienza di memoria all'avanguardia preservando le prestazioni attraverso molteplici metriche di valutazione, inclusi i punteggi FID, CLIP, DreamSim e GenEval.
English
Large-scale text encoders in text-to-image (T2I) diffusion models have
demonstrated exceptional performance in generating high-quality images from
textual prompts. Unlike denoising modules that rely on multiple iterative
steps, text encoders require only a single forward pass to produce text
embeddings. However, despite their minimal contribution to total inference time
and floating-point operations (FLOPs), text encoders demand significantly
higher memory usage, up to eight times more than denoising modules. To address
this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet
effective pruning strategy specifically designed for text encoders in T2I
diffusion models. Skrr exploits the inherent redundancy in transformer blocks
by selectively skipping or reusing certain layers in a manner tailored for T2I
tasks, thereby reducing memory consumption without compromising performance.
Extensive experiments demonstrate that Skrr maintains image quality comparable
to the original model even under high sparsity levels, outperforming existing
blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory
efficiency while preserving performance across multiple evaluation metrics,
including the FID, CLIP, DreamSim, and GenEval scores.Summary
AI-Generated Summary