Skrr: Strati di codifica del testo Salta e Riutilizza per una Generazione Testo-Immagine Efficientemente Memorizzabile

Abstract

I grandi codificatori di testo su larga scala nei modelli di diffusione testo-immagine (T2I) hanno dimostrato un'eccezionale performance nella generazione di immagini di alta qualità da prompt testuali. A differenza dei moduli di denoising che si basano su molteplici passaggi iterativi, i codificatori di testo richiedono un'unica passata in avanti per produrre embedding di testo. Tuttavia, nonostante il loro contributo minimo al tempo totale di inferenza e alle operazioni in virgola mobile (FLOPs), i codificatori di testo richiedono un utilizzo significativamente maggiore della memoria, fino a otto volte di più rispetto ai moduli di denoising. Per affrontare questa inefficienza, proponiamo strati di Salto e Riutilizzo (Skrr), una strategia di potatura semplice ma efficace progettata specificamente per i codificatori di testo nei modelli di diffusione T2I. Skrr sfrutta la ridondanza intrinseca nei blocchi trasformatore selezionando in modo selettivo lo scarto o il riutilizzo di determinati strati in modo adattato per compiti T2I, riducendo così il consumo di memoria senza compromettere le prestazioni. Estesi esperimenti dimostrano che Skrr mantiene la qualità dell'immagine paragonabile al modello originale anche con elevati livelli di sparsità, superando i metodi esistenti di potatura a livello di blocco. Inoltre, Skrr raggiunge un'efficienza di memoria all'avanguardia preservando le prestazioni attraverso molteplici metriche di valutazione, inclusi i punteggi FID, CLIP, DreamSim e GenEval.

English

Large-scale text encoders in text-to-image (T2I) diffusion models have demonstrated exceptional performance in generating high-quality images from textual prompts. Unlike denoising modules that rely on multiple iterative steps, text encoders require only a single forward pass to produce text embeddings. However, despite their minimal contribution to total inference time and floating-point operations (FLOPs), text encoders demand significantly higher memory usage, up to eight times more than denoising modules. To address this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet effective pruning strategy specifically designed for text encoders in T2I diffusion models. Skrr exploits the inherent redundancy in transformer blocks by selectively skipping or reusing certain layers in a manner tailored for T2I tasks, thereby reducing memory consumption without compromising performance. Extensive experiments demonstrate that Skrr maintains image quality comparable to the original model even under high sparsity levels, outperforming existing blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory efficiency while preserving performance across multiple evaluation metrics, including the FID, CLIP, DreamSim, and GenEval scores.

Skrr: Strati di codifica del testo Salta e Riutilizza per una Generazione Testo-Immagine Efficientemente Memorizzabile

Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Abstract

Summary

Support

Support