Skrr : Ignorer et Réutiliser les Couches d'Encodeur de Texte pour une Génération Texte-vers-Image Économe en Mémoire
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
February 12, 2025
Auteurs: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun
cs.AI
Résumé
Les encodeurs de texte à grande échelle dans les modèles de diffusion texte-image (T2I) ont démontré des performances exceptionnelles dans la génération d'images de haute qualité à partir de descriptions textuelles. Contrairement aux modules de débruitage qui reposent sur de multiples étapes itératives, les encodeurs de texte ne nécessitent qu'une seule passe avant pour produire des plongements textuels. Cependant, malgré leur contribution minimale au temps total d'inférence et aux opérations en virgule flottante (FLOPs), les encodeurs de texte demandent une utilisation significativement plus élevée de la mémoire, jusqu'à huit fois plus que les modules de débruitage. Pour remédier à cette inefficacité, nous proposons des couches de Saut et de Réutilisation (Skrr), une stratégie de taille simple mais efficace spécifiquement conçue pour les encodeurs de texte dans les modèles de diffusion T2I. Skrr exploite la redondance inhérente dans les blocs transformateurs en sautant ou en réutilisant sélectivement certaines couches d'une manière adaptée aux tâches T2I, réduisant ainsi la consommation de mémoire sans compromettre les performances. Des expériences approfondies démontrent que Skrr maintient une qualité d'image comparable au modèle original même avec des niveaux élevés de parcimonie, surpassant les méthodes de taille par bloc existantes. De plus, Skrr atteint une efficacité mémoire de pointe tout en préservant les performances selon plusieurs critères d'évaluation, y compris les scores FID, CLIP, DreamSim et GenEval.
English
Large-scale text encoders in text-to-image (T2I) diffusion models have
demonstrated exceptional performance in generating high-quality images from
textual prompts. Unlike denoising modules that rely on multiple iterative
steps, text encoders require only a single forward pass to produce text
embeddings. However, despite their minimal contribution to total inference time
and floating-point operations (FLOPs), text encoders demand significantly
higher memory usage, up to eight times more than denoising modules. To address
this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet
effective pruning strategy specifically designed for text encoders in T2I
diffusion models. Skrr exploits the inherent redundancy in transformer blocks
by selectively skipping or reusing certain layers in a manner tailored for T2I
tasks, thereby reducing memory consumption without compromising performance.
Extensive experiments demonstrate that Skrr maintains image quality comparable
to the original model even under high sparsity levels, outperforming existing
blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory
efficiency while preserving performance across multiple evaluation metrics,
including the FID, CLIP, DreamSim, and GenEval scores.