SwiftBrush v2: Faça seu Modelo de Difusão de Uma Etapa Ser Melhor Que Seu ProfessorSwiftBrush v2: Make Your One-step Diffusion Model Better Than Its
Teacher
Neste artigo, nosso objetivo é aprimorar o desempenho do SwiftBrush, um modelo proeminente de difusão de texto para imagem em um passo, para ser competitivo com seu equivalente de difusão estável em vários passos. Inicialmente, exploramos a compensação qualidade-diversidade entre o SwiftBrush e o SD Turbo: o primeiro se destaca na diversidade de imagens, enquanto o último se destaca na qualidade da imagem. Essa observação motiva nossas modificações propostas na metodologia de treinamento, incluindo uma melhor inicialização de pesos e um treinamento eficiente LoRA. Além disso, nossa introdução de uma nova perda CLIP limitada aprimora o alinhamento imagem-texto e resulta em uma melhor qualidade de imagem. Notavelmente, ao combinar os pesos de modelos treinados com LoRA eficiente e treinamento completo, alcançamos um novo modelo de difusão em um passo de ponta, atingindo um FID de 8,14 e superando todos os modelos baseados em GAN e modelos de difusão estável em vários passos. O código de avaliação está disponível em: https://github.com/vinairesearch/swiftbrushv2.