Эффективная персонализация квантованной модели диффузии без использования обратного распространения
Efficient Personalization of Quantized Diffusion Model without Backpropagation
March 19, 2025
Авторы: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
cs.AI
Аннотация
Диффузионные модели продемонстрировали выдающиеся результаты в синтезе изображений, однако они требуют значительных вычислительных и ресурсов памяти для обучения, тонкой настройки и вывода. Хотя современные методы квантования успешно минимизировали использование памяти для вывода, обучение и тонкая настройка этих квантованных моделей по-прежнему требуют большого объема памяти, возможно, из-за необходимости деквантования для точного вычисления градиентов и/или обратного распространения для градиентных алгоритмов. Тем не менее, эффективная по памяти тонкая настройка особенно важна для таких приложений, как персонализация, которые часто должны выполняться на устройствах с ограниченными ресурсами, таких как мобильные телефоны, с использованием приватных данных. В данной работе мы решаем эту задачу, квантуя диффузионную модель с персонализацией через Textual Inversion и используя оптимизацию нулевого порядка для токенов персонализации без деквантования, что исключает необходимость хранения градиентов и активаций для обратного распространения, которое потребляет значительный объем памяти. Поскольку оценка градиента с использованием оптимизации нулевого порядка является довольно шумной для одного или нескольких изображений в персонализации, мы предлагаем снизить уровень шума в оценке градиента, проецируя его на подпространство, построенное на основе истории прошлых токенов, названное Subspace Gradient. Кроме того, мы исследовали влияние текстового представления на генерацию изображений, что привело к предложенному нами методу выборки временных шагов, названному Partial Uniform Timestep Sampling, для выборки с эффективными шагами диффузии. Наш метод демонстрирует сопоставимую производительность с предыдущими методами по показателям согласованности изображений и текста для персонализации Stable Diffusion, используя только прямые проходы, при этом сокращая потребление памяти при обучении до 8.2 раз.
English
Diffusion models have shown remarkable performance in image synthesis, but
they demand extensive computational and memory resources for training,
fine-tuning and inference. Although advanced quantization techniques have
successfully minimized memory usage for inference, training and fine-tuning
these quantized models still require large memory possibly due to
dequantization for accurate computation of gradients and/or backpropagation for
gradient-based algorithms. However, memory-efficient fine-tuning is
particularly desirable for applications such as personalization that often must
be run on edge devices like mobile phones with private data. In this work, we
address this challenge by quantizing a diffusion model with personalization via
Textual Inversion and by leveraging a zeroth-order optimization on
personalization tokens without dequantization so that it does not require
gradient and activation storage for backpropagation that consumes considerable
memory. Since a gradient estimation using zeroth-order optimization is quite
noisy for a single or a few images in personalization, we propose to denoise
the estimated gradient by projecting it onto a subspace that is constructed
with the past history of the tokens, dubbed Subspace Gradient. In addition, we
investigated the influence of text embedding in image generation, leading to
our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for
sampling with effective diffusion timesteps. Our method achieves comparable
performance to prior methods in image and text alignment scores for
personalizing Stable Diffusion with only forward passes while reducing training
memory demand up to 8.2times.Summary
AI-Generated Summary