Efficiënte Personalisatie van Gekwantiseerd Diffusiemodel zonder Backpropagatie
Efficient Personalization of Quantized Diffusion Model without Backpropagation
March 19, 2025
Auteurs: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
cs.AI
Samenvatting
Diffusiemodellen hebben opmerkelijke prestaties getoond in beeldgeneratie, maar ze vereisen uitgebreide reken- en geheugenbronnen voor training, fine-tuning en inferentie. Hoewel geavanceerde kwantisatietechnieken het geheugengebruik voor inferentie succesvol hebben geminimaliseerd, vereisen training en fine-tuning van deze gekwantiseerde modellen nog steeds veel geheugen, mogelijk vanwege dequantisatie voor nauwkeurige berekening van gradiënten en/of backpropagatie voor op gradiënten gebaseerde algoritmen. Efficiënt geheugengebruik bij fine-tuning is echter bijzonder wenselijk voor toepassingen zoals personalisatie, die vaak op edge-apparaten zoals mobiele telefoons met privédata moeten worden uitgevoerd. In dit werk pakken we deze uitdaging aan door een diffusiemodel te kwantiseren met personalisatie via Textual Inversion en door gebruik te maken van een nulde-orde optimalisatie op personalisatietokens zonder dequantisatie, zodat er geen opslag van gradiënten en activaties voor backpropagatie nodig is, wat aanzienlijk geheugen verbruikt. Omdat een gradiëntschatting met nulde-orde optimalisatie behoorlijk ruisachtig is voor één of enkele afbeeldingen bij personalisatie, stellen we voor om de geschatte gradiënt te denoizen door deze te projecteren op een deelruimte die is geconstrueerd met de eerdere geschiedenis van de tokens, genaamd Subspace Gradient. Daarnaast hebben we de invloed van tekstembedding op beeldgeneratie onderzocht, wat leidde tot onze voorgestelde tijdstapbemonstering, genaamd Partial Uniform Timestep Sampling, voor bemonstering met effectieve diffusietijdstappen. Onze methode bereikt vergelijkbare prestaties als eerdere methoden in beeld- en tekstuitlijningsscores voor het personaliseren van Stable Diffusion met alleen forward passes, terwijl het geheugengebruik tijdens de training tot 8,2 keer wordt verminderd.
English
Diffusion models have shown remarkable performance in image synthesis, but
they demand extensive computational and memory resources for training,
fine-tuning and inference. Although advanced quantization techniques have
successfully minimized memory usage for inference, training and fine-tuning
these quantized models still require large memory possibly due to
dequantization for accurate computation of gradients and/or backpropagation for
gradient-based algorithms. However, memory-efficient fine-tuning is
particularly desirable for applications such as personalization that often must
be run on edge devices like mobile phones with private data. In this work, we
address this challenge by quantizing a diffusion model with personalization via
Textual Inversion and by leveraging a zeroth-order optimization on
personalization tokens without dequantization so that it does not require
gradient and activation storage for backpropagation that consumes considerable
memory. Since a gradient estimation using zeroth-order optimization is quite
noisy for a single or a few images in personalization, we propose to denoise
the estimated gradient by projecting it onto a subspace that is constructed
with the past history of the tokens, dubbed Subspace Gradient. In addition, we
investigated the influence of text embedding in image generation, leading to
our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for
sampling with effective diffusion timesteps. Our method achieves comparable
performance to prior methods in image and text alignment scores for
personalizing Stable Diffusion with only forward passes while reducing training
memory demand up to 8.2times.Summary
AI-Generated Summary