Personalización eficiente de modelos de difusión cuantizados sin retropropagación
Efficient Personalization of Quantized Diffusion Model without Backpropagation
March 19, 2025
Autores: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
cs.AI
Resumen
Los modelos de difusión han demostrado un rendimiento notable en la síntesis de imágenes, pero requieren recursos computacionales y de memoria extensos para el entrenamiento, ajuste fino e inferencia. Aunque las técnicas avanzadas de cuantización han logrado minimizar el uso de memoria para la inferencia, el entrenamiento y ajuste fino de estos modelos cuantizados aún requieren una gran cantidad de memoria, posiblemente debido a la des-cuantización para el cálculo preciso de gradientes y/o la retropropagación en algoritmos basados en gradientes. Sin embargo, el ajuste fino eficiente en memoria es particularmente deseable para aplicaciones como la personalización, que a menudo deben ejecutarse en dispositivos de borde como teléfonos móviles con datos privados. En este trabajo, abordamos este desafío cuantizando un modelo de difusión con personalización mediante Inversión Textual y aprovechando una optimización de orden cero en los tokens de personalización sin des-cuantización, de modo que no se requiere almacenamiento de gradientes y activaciones para la retropropagación, que consume una cantidad considerable de memoria. Dado que la estimación de gradientes utilizando optimización de orden cero es bastante ruidosa para una o pocas imágenes en la personalización, proponemos reducir el ruido del gradiente estimado proyectándolo en un subespacio construido con el historial pasado de los tokens, denominado Subespacio de Gradiente. Además, investigamos la influencia de la incrustación de texto en la generación de imágenes, lo que llevó a nuestra propuesta de muestreo de pasos de tiempo, denominado Muestreo Parcial Uniforme de Pasos de Tiempo, para muestrear con pasos de difusión efectivos. Nuestro método logra un rendimiento comparable a los métodos anteriores en puntuaciones de alineación de imagen y texto para personalizar Stable Diffusion con solo pasos hacia adelante, mientras reduce la demanda de memoria de entrenamiento hasta 8.2 veces.
English
Diffusion models have shown remarkable performance in image synthesis, but
they demand extensive computational and memory resources for training,
fine-tuning and inference. Although advanced quantization techniques have
successfully minimized memory usage for inference, training and fine-tuning
these quantized models still require large memory possibly due to
dequantization for accurate computation of gradients and/or backpropagation for
gradient-based algorithms. However, memory-efficient fine-tuning is
particularly desirable for applications such as personalization that often must
be run on edge devices like mobile phones with private data. In this work, we
address this challenge by quantizing a diffusion model with personalization via
Textual Inversion and by leveraging a zeroth-order optimization on
personalization tokens without dequantization so that it does not require
gradient and activation storage for backpropagation that consumes considerable
memory. Since a gradient estimation using zeroth-order optimization is quite
noisy for a single or a few images in personalization, we propose to denoise
the estimated gradient by projecting it onto a subspace that is constructed
with the past history of the tokens, dubbed Subspace Gradient. In addition, we
investigated the influence of text embedding in image generation, leading to
our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for
sampling with effective diffusion timesteps. Our method achieves comparable
performance to prior methods in image and text alignment scores for
personalizing Stable Diffusion with only forward passes while reducing training
memory demand up to 8.2times.Summary
AI-Generated Summary