Skrr: Camadas Codificadoras de Texto Skip e Reutilização para Geração Eficiente de Texto para Imagem

Resumo

Grandes codificadores de texto em modelos de difusão texto-imagem (T2I) em larga escala têm demonstrado desempenho excepcional na geração de imagens de alta qualidade a partir de estímulos textuais. Ao contrário de módulos de remoção de ruído que dependem de múltiplas etapas iterativas, os codificadores de texto requerem apenas uma passagem direta para produzir incorporações de texto. No entanto, apesar de sua contribuição mínima para o tempo total de inferência e operações de ponto flutuante (FLOPs), os codificadores de texto demandam uso significativamente maior de memória, até oito vezes mais do que os módulos de remoção de ruído. Para lidar com essa ineficiência, propomos camadas de Salto e Reutilização (Skrr), uma estratégia de poda simples, porém eficaz, projetada especificamente para codificadores de texto em modelos de difusão T2I. Skrr explora a redundância inerente em blocos de transformadores, pulando ou reutilizando seletivamente certas camadas de maneira adaptada para tarefas T2I, reduzindo assim o consumo de memória sem comprometer o desempenho. Experimentos extensos demonstram que Skrr mantém a qualidade da imagem comparável ao modelo original, mesmo sob altos níveis de esparsidade, superando os métodos de poda por bloco existentes. Além disso, Skrr alcança eficiência de memória de ponta, preservando o desempenho em múltiplas métricas de avaliação, incluindo os escores FID, CLIP, DreamSim e GenEval.

English

Large-scale text encoders in text-to-image (T2I) diffusion models have demonstrated exceptional performance in generating high-quality images from textual prompts. Unlike denoising modules that rely on multiple iterative steps, text encoders require only a single forward pass to produce text embeddings. However, despite their minimal contribution to total inference time and floating-point operations (FLOPs), text encoders demand significantly higher memory usage, up to eight times more than denoising modules. To address this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet effective pruning strategy specifically designed for text encoders in T2I diffusion models. Skrr exploits the inherent redundancy in transformer blocks by selectively skipping or reusing certain layers in a manner tailored for T2I tasks, thereby reducing memory consumption without compromising performance. Extensive experiments demonstrate that Skrr maintains image quality comparable to the original model even under high sparsity levels, outperforming existing blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory efficiency while preserving performance across multiple evaluation metrics, including the FID, CLIP, DreamSim, and GenEval scores.

Skrr: Camadas Codificadoras de Texto Skip e Reutilização para Geração Eficiente de Texto para Imagem

Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Resumo

Support