aMUSEd: Uma Reprodução Aberta do MUSE
aMUSEd: An Open MUSE Reproduction
January 3, 2024
Autores: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
cs.AI
Resumo
Apresentamos o aMUSEd, um modelo leve e de código aberto para geração de imagens a partir de texto, baseado em MUSE e utilizando a abordagem de modelos mascarados de imagem (MIM). Com apenas 10% dos parâmetros do MUSE, o aMUSEd é focado na geração rápida de imagens. Acreditamos que o MIM é uma área subexplorada em comparação com a difusão latente, a abordagem predominante para geração de imagens a partir de texto. Em relação à difusão latente, o MIM requer menos passos de inferência e é mais interpretável. Além disso, o MIM pode ser ajustado para aprender estilos adicionais com apenas uma única imagem. Esperamos incentivar uma maior exploração do MIM ao demonstrar sua eficácia na geração de imagens em larga escala a partir de texto e ao disponibilizar código de treinamento reproduzível. Também disponibilizamos checkpoints para dois modelos que produzem diretamente imagens nas resoluções de 256x256 e 512x512.
English
We present aMUSEd, an open-source, lightweight masked image model (MIM) for
text-to-image generation based on MUSE. With 10 percent of MUSE's parameters,
aMUSEd is focused on fast image generation. We believe MIM is under-explored
compared to latent diffusion, the prevailing approach for text-to-image
generation. Compared to latent diffusion, MIM requires fewer inference steps
and is more interpretable. Additionally, MIM can be fine-tuned to learn
additional styles with only a single image. We hope to encourage further
exploration of MIM by demonstrating its effectiveness on large-scale
text-to-image generation and releasing reproducible training code. We also
release checkpoints for two models which directly produce images at 256x256 and
512x512 resolutions.