ChatPaper.aiChatPaper

Personalização Eficiente de Modelos de Difusão Quantizados sem Retropropagação

Efficient Personalization of Quantized Diffusion Model without Backpropagation

March 19, 2025
Autores: Hoigi Seo, Wongi Jeong, Kyungryeol Lee, Se Young Chun
cs.AI

Resumo

Os modelos de difusão têm demonstrado desempenho notável na síntese de imagens, mas exigem recursos computacionais e de memória extensivos para treinamento, ajuste fino e inferência. Embora técnicas avançadas de quantização tenham reduzido com sucesso o uso de memória para inferência, o treinamento e o ajuste fino desses modelos quantizados ainda exigem grande quantidade de memória, possivelmente devido à desquantização para o cálculo preciso de gradientes e/ou à retropropagação para algoritmos baseados em gradientes. No entanto, o ajuste fino eficiente em termos de memória é particularmente desejável para aplicações como personalização, que muitas vezes precisam ser executadas em dispositivos de borda, como smartphones, com dados privados. Neste trabalho, abordamos esse desafio quantizando um modelo de difusão com personalização via Inversão Textual e utilizando uma otimização de ordem zero nos tokens de personalização sem desquantização, de modo que não seja necessário armazenar gradientes e ativações para a retropropagação, que consome uma quantidade considerável de memória. Como a estimativa de gradiente usando otimização de ordem zero é bastante ruidosa para uma única imagem ou poucas imagens na personalização, propomos reduzir o ruído do gradiente estimado projetando-o em um subespaço construído com o histórico passado dos tokens, denominado Subespaço de Gradiente. Além disso, investigamos a influência da incorporação de texto na geração de imagens, levando à nossa proposta de amostragem de passos de tempo, denominada Amostragem Parcial Uniforme de Passos de Tempo, para amostragem com passos de tempo de difusão eficazes. Nosso método alcança desempenho comparável aos métodos anteriores em pontuações de alinhamento de imagem e texto para personalizar o Stable Diffusion com apenas passagens diretas, enquanto reduz a demanda de memória de treinamento em até 8,2 vezes.
English
Diffusion models have shown remarkable performance in image synthesis, but they demand extensive computational and memory resources for training, fine-tuning and inference. Although advanced quantization techniques have successfully minimized memory usage for inference, training and fine-tuning these quantized models still require large memory possibly due to dequantization for accurate computation of gradients and/or backpropagation for gradient-based algorithms. However, memory-efficient fine-tuning is particularly desirable for applications such as personalization that often must be run on edge devices like mobile phones with private data. In this work, we address this challenge by quantizing a diffusion model with personalization via Textual Inversion and by leveraging a zeroth-order optimization on personalization tokens without dequantization so that it does not require gradient and activation storage for backpropagation that consumes considerable memory. Since a gradient estimation using zeroth-order optimization is quite noisy for a single or a few images in personalization, we propose to denoise the estimated gradient by projecting it onto a subspace that is constructed with the past history of the tokens, dubbed Subspace Gradient. In addition, we investigated the influence of text embedding in image generation, leading to our proposed time steps sampling, dubbed Partial Uniform Timestep Sampling for sampling with effective diffusion timesteps. Our method achieves comparable performance to prior methods in image and text alignment scores for personalizing Stable Diffusion with only forward passes while reducing training memory demand up to 8.2times.

Summary

AI-Generated Summary

PDF202March 20, 2025