Skrr: Camadas Codificadoras de Texto Skip e Reutilização para Geração Eficiente de Texto para Imagem
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
February 12, 2025
Autores: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun
cs.AI
Resumo
Grandes codificadores de texto em modelos de difusão texto-imagem (T2I) em larga escala têm demonstrado desempenho excepcional na geração de imagens de alta qualidade a partir de estímulos textuais. Ao contrário de módulos de remoção de ruído que dependem de múltiplas etapas iterativas, os codificadores de texto requerem apenas uma passagem direta para produzir incorporações de texto. No entanto, apesar de sua contribuição mínima para o tempo total de inferência e operações de ponto flutuante (FLOPs), os codificadores de texto demandam uso significativamente maior de memória, até oito vezes mais do que os módulos de remoção de ruído. Para lidar com essa ineficiência, propomos camadas de Salto e Reutilização (Skrr), uma estratégia de poda simples, porém eficaz, projetada especificamente para codificadores de texto em modelos de difusão T2I. Skrr explora a redundância inerente em blocos de transformadores, pulando ou reutilizando seletivamente certas camadas de maneira adaptada para tarefas T2I, reduzindo assim o consumo de memória sem comprometer o desempenho. Experimentos extensos demonstram que Skrr mantém a qualidade da imagem comparável ao modelo original, mesmo sob altos níveis de esparsidade, superando os métodos de poda por bloco existentes. Além disso, Skrr alcança eficiência de memória de ponta, preservando o desempenho em múltiplas métricas de avaliação, incluindo os escores FID, CLIP, DreamSim e GenEval.
English
Large-scale text encoders in text-to-image (T2I) diffusion models have
demonstrated exceptional performance in generating high-quality images from
textual prompts. Unlike denoising modules that rely on multiple iterative
steps, text encoders require only a single forward pass to produce text
embeddings. However, despite their minimal contribution to total inference time
and floating-point operations (FLOPs), text encoders demand significantly
higher memory usage, up to eight times more than denoising modules. To address
this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet
effective pruning strategy specifically designed for text encoders in T2I
diffusion models. Skrr exploits the inherent redundancy in transformer blocks
by selectively skipping or reusing certain layers in a manner tailored for T2I
tasks, thereby reducing memory consumption without compromising performance.
Extensive experiments demonstrate that Skrr maintains image quality comparable
to the original model even under high sparsity levels, outperforming existing
blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory
efficiency while preserving performance across multiple evaluation metrics,
including the FID, CLIP, DreamSim, and GenEval scores.Summary
AI-Generated Summary