ChatPaper.aiChatPaper

Personnalisation efficace des modèles de diffusion quantifiés sans rétropropagation

Efficient Personalization of Quantized Diffusion Model without Backpropagation

March 19, 2025
Auteurs: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
cs.AI

Résumé

Les modèles de diffusion ont démontré des performances remarquables en synthèse d'images, mais ils nécessitent des ressources computationnelles et mémoire importantes pour l'entraînement, le réglage fin et l'inférence. Bien que des techniques avancées de quantification aient réussi à minimiser l'utilisation de la mémoire pour l'inférence, l'entraînement et le réglage fin de ces modèles quantifiés nécessitent toujours une mémoire importante, probablement en raison de la déquantification pour un calcul précis des gradients et/ou de la rétropropagation pour les algorithmes basés sur les gradients. Cependant, un réglage fin économe en mémoire est particulièrement souhaitable pour des applications telles que la personnalisation, qui doivent souvent être exécutées sur des appareils périphériques comme les téléphones portables avec des données privées. Dans ce travail, nous relevons ce défi en quantifiant un modèle de diffusion avec personnalisation via Textual Inversion et en exploitant une optimisation d'ordre zéro sur les tokens de personnalisation sans déquantification, de sorte qu'elle ne nécessite pas de stockage des gradients et des activations pour la rétropropagation, qui consomme une mémoire considérable. Comme une estimation de gradient utilisant l'optimisation d'ordre zéro est assez bruyante pour une seule ou quelques images dans la personnalisation, nous proposons de débruiter le gradient estimé en le projetant sur un sous-espace construit avec l'historique passé des tokens, appelé Subspace Gradient. De plus, nous avons étudié l'influence de l'incorporation de texte dans la génération d'images, conduisant à notre méthode d'échantillonnage des pas de temps, appelée Partial Uniform Timestep Sampling, pour l'échantillonnage avec des pas de temps de diffusion efficaces. Notre méthode atteint des performances comparables aux méthodes précédentes en termes de scores d'alignement image et texte pour la personnalisation de Stable Diffusion avec uniquement des passes avant, tout en réduisant la demande de mémoire d'entraînement jusqu'à 8,2 fois.
English
Diffusion models have shown remarkable performance in image synthesis, but they demand extensive computational and memory resources for training, fine-tuning and inference. Although advanced quantization techniques have successfully minimized memory usage for inference, training and fine-tuning these quantized models still require large memory possibly due to dequantization for accurate computation of gradients and/or backpropagation for gradient-based algorithms. However, memory-efficient fine-tuning is particularly desirable for applications such as personalization that often must be run on edge devices like mobile phones with private data. In this work, we address this challenge by quantizing a diffusion model with personalization via Textual Inversion and by leveraging a zeroth-order optimization on personalization tokens without dequantization so that it does not require gradient and activation storage for backpropagation that consumes considerable memory. Since a gradient estimation using zeroth-order optimization is quite noisy for a single or a few images in personalization, we propose to denoise the estimated gradient by projecting it onto a subspace that is constructed with the past history of the tokens, dubbed Subspace Gradient. In addition, we investigated the influence of text embedding in image generation, leading to our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for sampling with effective diffusion timesteps. Our method achieves comparable performance to prior methods in image and text alignment scores for personalizing Stable Diffusion with only forward passes while reducing training memory demand up to 8.2times.

Summary

AI-Generated Summary

PDF202March 20, 2025