ChatPaper.aiChatPaper

aMUSEd: Uma Reprodução Aberta do MUSE

aMUSEd: An Open MUSE Reproduction

January 3, 2024
Autores: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
cs.AI

Resumo

Apresentamos o aMUSEd, um modelo leve e de código aberto para geração de imagens a partir de texto, baseado em MUSE e utilizando a abordagem de modelos mascarados de imagem (MIM). Com apenas 10% dos parâmetros do MUSE, o aMUSEd é focado na geração rápida de imagens. Acreditamos que o MIM é uma área subexplorada em comparação com a difusão latente, a abordagem predominante para geração de imagens a partir de texto. Em relação à difusão latente, o MIM requer menos passos de inferência e é mais interpretável. Além disso, o MIM pode ser ajustado para aprender estilos adicionais com apenas uma única imagem. Esperamos incentivar uma maior exploração do MIM ao demonstrar sua eficácia na geração de imagens em larga escala a partir de texto e ao disponibilizar código de treinamento reproduzível. Também disponibilizamos checkpoints para dois modelos que produzem diretamente imagens nas resoluções de 256x256 e 512x512.
English
We present aMUSEd, an open-source, lightweight masked image model (MIM) for text-to-image generation based on MUSE. With 10 percent of MUSE's parameters, aMUSEd is focused on fast image generation. We believe MIM is under-explored compared to latent diffusion, the prevailing approach for text-to-image generation. Compared to latent diffusion, MIM requires fewer inference steps and is more interpretable. Additionally, MIM can be fine-tuned to learn additional styles with only a single image. We hope to encourage further exploration of MIM by demonstrating its effectiveness on large-scale text-to-image generation and releasing reproducible training code. We also release checkpoints for two models which directly produce images at 256x256 and 512x512 resolutions.
PDF313December 15, 2024