Personnalisation efficace des modèles de diffusion quantifiés sans rétropropagation
Efficient Personalization of Quantized Diffusion Model without Backpropagation
March 19, 2025
Auteurs: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
cs.AI
Résumé
Les modèles de diffusion ont démontré des performances remarquables en synthèse d'images, mais ils nécessitent des ressources computationnelles et mémoire importantes pour l'entraînement, le réglage fin et l'inférence. Bien que des techniques avancées de quantification aient réussi à minimiser l'utilisation de la mémoire pour l'inférence, l'entraînement et le réglage fin de ces modèles quantifiés nécessitent toujours une mémoire importante, probablement en raison de la déquantification pour un calcul précis des gradients et/ou de la rétropropagation pour les algorithmes basés sur les gradients. Cependant, un réglage fin économe en mémoire est particulièrement souhaitable pour des applications telles que la personnalisation, qui doivent souvent être exécutées sur des appareils périphériques comme les téléphones portables avec des données privées. Dans ce travail, nous relevons ce défi en quantifiant un modèle de diffusion avec personnalisation via Textual Inversion et en exploitant une optimisation d'ordre zéro sur les tokens de personnalisation sans déquantification, de sorte qu'elle ne nécessite pas de stockage des gradients et des activations pour la rétropropagation, qui consomme une mémoire considérable. Comme une estimation de gradient utilisant l'optimisation d'ordre zéro est assez bruyante pour une seule ou quelques images dans la personnalisation, nous proposons de débruiter le gradient estimé en le projetant sur un sous-espace construit avec l'historique passé des tokens, appelé Subspace Gradient. De plus, nous avons étudié l'influence de l'incorporation de texte dans la génération d'images, conduisant à notre méthode d'échantillonnage des pas de temps, appelée Partial Uniform Timestep Sampling, pour l'échantillonnage avec des pas de temps de diffusion efficaces. Notre méthode atteint des performances comparables aux méthodes précédentes en termes de scores d'alignement image et texte pour la personnalisation de Stable Diffusion avec uniquement des passes avant, tout en réduisant la demande de mémoire d'entraînement jusqu'à 8,2 fois.
English
Diffusion models have shown remarkable performance in image synthesis, but
they demand extensive computational and memory resources for training,
fine-tuning and inference. Although advanced quantization techniques have
successfully minimized memory usage for inference, training and fine-tuning
these quantized models still require large memory possibly due to
dequantization for accurate computation of gradients and/or backpropagation for
gradient-based algorithms. However, memory-efficient fine-tuning is
particularly desirable for applications such as personalization that often must
be run on edge devices like mobile phones with private data. In this work, we
address this challenge by quantizing a diffusion model with personalization via
Textual Inversion and by leveraging a zeroth-order optimization on
personalization tokens without dequantization so that it does not require
gradient and activation storage for backpropagation that consumes considerable
memory. Since a gradient estimation using zeroth-order optimization is quite
noisy for a single or a few images in personalization, we propose to denoise
the estimated gradient by projecting it onto a subspace that is constructed
with the past history of the tokens, dubbed Subspace Gradient. In addition, we
investigated the influence of text embedding in image generation, leading to
our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for
sampling with effective diffusion timesteps. Our method achieves comparable
performance to prior methods in image and text alignment scores for
personalizing Stable Diffusion with only forward passes while reducing training
memory demand up to 8.2times.Summary
AI-Generated Summary