Skrr: Пропуск и повторное использование слоев кодировщика текста для эффективной генерации изображений из текста.
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation
February 12, 2025
Авторы: Hoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun
cs.AI
Аннотация
Крупномасштабные текстовые кодировщики в моделях диффузии текста в изображение (T2I) продемонстрировали исключительную производительность в генерации высококачественных изображений по текстовым подсказкам. В отличие от модулей шумоподавления, которые зависят от множественных итеративных шагов, текстовые кодировщики требуют лишь одного прямого прохода для создания текстовых вложений. Однако, несмотря на их минимальный вклад в общее время вывода и операции с плавающей запятой (FLOPs), текстовые кодировщики требуют значительно большего объема памяти, до восьми раз больше, чем модули шумоподавления. Для решения этой неэффективности мы предлагаем слои Пропуска и Повторного использования (Skrr), простую, но эффективную стратегию обрезки, специально разработанную для текстовых кодировщиков в моделях диффузии T2I. Skrr использует встроенную избыточность в блоках трансформера путем выборочного пропуска или повторного использования определенных слоев специально под задачи T2I, тем самым уменьшая потребление памяти без ущерба производительности. Обширные эксперименты показывают, что Skrr сохраняет качество изображения, сравнимое с оригинальной моделью даже при высоких уровнях разреженности, превосходя существующие методы блочной обрезки. Более того, Skrr достигает передовой памяти эффективности, сохраняя производительность по множеству метрик оценки, включая FID, CLIP, DreamSim и оценки GenEval.
English
Large-scale text encoders in text-to-image (T2I) diffusion models have
demonstrated exceptional performance in generating high-quality images from
textual prompts. Unlike denoising modules that rely on multiple iterative
steps, text encoders require only a single forward pass to produce text
embeddings. However, despite their minimal contribution to total inference time
and floating-point operations (FLOPs), text encoders demand significantly
higher memory usage, up to eight times more than denoising modules. To address
this inefficiency, we propose Skip and Re-use layers (Skrr), a simple yet
effective pruning strategy specifically designed for text encoders in T2I
diffusion models. Skrr exploits the inherent redundancy in transformer blocks
by selectively skipping or reusing certain layers in a manner tailored for T2I
tasks, thereby reducing memory consumption without compromising performance.
Extensive experiments demonstrate that Skrr maintains image quality comparable
to the original model even under high sparsity levels, outperforming existing
blockwise pruning methods. Furthermore, Skrr achieves state-of-the-art memory
efficiency while preserving performance across multiple evaluation metrics,
including the FID, CLIP, DreamSim, and GenEval scores.Summary
AI-Generated Summary