Skrr: Capas de Codificador de Texto para Saltar y Reutilizar para una Generación Eficiente de Texto a Imagen
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
February 12, 2025
Autores: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun
cs.AI
Resumen
Los codificadores de texto a gran escala en modelos de difusión texto-imagen (T2I) han demostrado un rendimiento excepcional en la generación de imágenes de alta calidad a partir de indicaciones textuales. A diferencia de los módulos de eliminación de ruido que dependen de múltiples pasos iterativos, los codificadores de texto requieren solo un pase hacia adelante para producir incrustaciones de texto. Sin embargo, a pesar de su mínima contribución al tiempo total de inferencia y a las operaciones de punto flotante (FLOPs), los codificadores de texto requieren un uso de memoria significativamente mayor, hasta ocho veces más que los módulos de eliminación de ruido. Para abordar esta ineficiencia, proponemos capas de Salto y Reutilización (Skrr), una estrategia de poda simple pero efectiva diseñada específicamente para los codificadores de texto en modelos de difusión T2I. Skrr explota la redundancia inherente en los bloques transformadores al saltar o reutilizar selectivamente ciertas capas de una manera adaptada para tareas T2I, reduciendo así el consumo de memoria sin comprometer el rendimiento. Experimentos extensos demuestran que Skrr mantiene la calidad de imagen comparable al modelo original incluso bajo niveles altos de dispersión, superando a los métodos de poda por bloques existentes. Además, Skrr logra eficiencia de memoria de vanguardia al tiempo que preserva el rendimiento en múltiples métricas de evaluación, incluidas las puntuaciones FID, CLIP, DreamSim y GenEval.
English
Large-scale text encoders in text-to-image (T2I) diffusion models have
demonstrated exceptional performance in generating high-quality images from
textual prompts. Unlike denoising modules that rely on multiple iterative
steps, text encoders require only a single forward pass to produce text
embeddings. However, despite their minimal contribution to total inference time
and floating-point operations (FLOPs), text encoders demand significantly
higher memory usage, up to eight times more than denoising modules. To address
this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet
effective pruning strategy specifically designed for text encoders in T2I
diffusion models. Skrr exploits the inherent redundancy in transformer blocks
by selectively skipping or reusing certain layers in a manner tailored for T2I
tasks, thereby reducing memory consumption without compromising performance.
Extensive experiments demonstrate that Skrr maintains image quality comparable
to the original model even under high sparsity levels, outperforming existing
blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory
efficiency while preserving performance across multiple evaluation metrics,
including the FID, CLIP, DreamSim, and GenEval scores.Summary
AI-Generated Summary