Personalizzazione efficiente di modelli di diffusione quantizzati senza retropropagazione
Efficient Personalization of Quantized Diffusion Model without Backpropagation
March 19, 2025
Autori: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
cs.AI
Abstract
I modelli di diffusione hanno dimostrato prestazioni notevoli nella sintesi di immagini, ma richiedono risorse computazionali e di memoria estese per l'addestramento, il fine-tuning e l'inferenza. Sebbene tecniche avanzate di quantizzazione abbiano ridotto con successo l'utilizzo della memoria per l'inferenza, l'addestramento e il fine-tuning di questi modelli quantizzati richiedono ancora molta memoria, probabilmente a causa della dequantizzazione necessaria per il calcolo accurato dei gradienti e/o della retropropagazione per algoritmi basati sui gradienti. Tuttavia, un fine-tuning efficiente in termini di memoria è particolarmente desiderabile per applicazioni come la personalizzazione, che spesso devono essere eseguite su dispositivi edge come telefoni cellulari con dati privati. In questo lavoro, affrontiamo questa sfida quantizzando un modello di diffusione con personalizzazione tramite Textual Inversion e sfruttando un'ottimizzazione di ordine zero sui token di personalizzazione senza dequantizzazione, in modo che non sia necessario memorizzare gradienti e attivazioni per la retropropagazione, che consuma molta memoria. Poiché una stima del gradiente utilizzando l'ottimizzazione di ordine zero è piuttosto rumorosa per una singola immagine o poche immagini nella personalizzazione, proponiamo di eliminare il rumore dal gradiente stimato proiettandolo su un sottospazio costruito con la storia passata dei token, denominato Subspace Gradient. Inoltre, abbiamo studiato l'influenza dell'embedding testuale nella generazione di immagini, portando alla nostra proposta di campionamento dei passi temporali, denominato Partial Uniform Timestep Sampling, per il campionamento con passi temporali di diffusione efficaci. Il nostro metodo raggiunge prestazioni comparabili ai metodi precedenti nei punteggi di allineamento tra immagini e testo per la personalizzazione di Stable Diffusion con solo passaggi in avanti, riducendo la richiesta di memoria di addestramento fino a 8,2 volte.
English
Diffusion models have shown remarkable performance in image synthesis, but
they demand extensive computational and memory resources for training,
fine-tuning and inference. Although advanced quantization techniques have
successfully minimized memory usage for inference, training and fine-tuning
these quantized models still require large memory possibly due to
dequantization for accurate computation of gradients and/or backpropagation for
gradient-based algorithms. However, memory-efficient fine-tuning is
particularly desirable for applications such as personalization that often must
be run on edge devices like mobile phones with private data. In this work, we
address this challenge by quantizing a diffusion model with personalization via
Textual Inversion and by leveraging a zeroth-order optimization on
personalization tokens without dequantization so that it does not require
gradient and activation storage for backpropagation that consumes considerable
memory. Since a gradient estimation using zeroth-order optimization is quite
noisy for a single or a few images in personalization, we propose to denoise
the estimated gradient by projecting it onto a subspace that is constructed
with the past history of the tokens, dubbed Subspace Gradient. In addition, we
investigated the influence of text embedding in image generation, leading to
our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for
sampling with effective diffusion timesteps. Our method achieves comparable
performance to prior methods in image and text alignment scores for
personalizing Stable Diffusion with only forward passes while reducing training
memory demand up to 8.2times.