aMUSEd : Une reproduction ouverte de MUSE
aMUSEd: An Open MUSE Reproduction
January 3, 2024
Auteurs: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
cs.AI
Résumé
Nous présentons aMUSEd, un modèle masqué d'images (MIM) open-source et léger pour la génération d'images à partir de texte, basé sur MUSE. Avec seulement 10 % des paramètres de MUSE, aMUSEd est conçu pour une génération rapide d'images. Nous pensons que le MIM est sous-exploré par rapport à la diffusion latente, l'approche dominante pour la génération d'images à partir de texte. Comparé à la diffusion latente, le MIM nécessite moins d'étapes d'inférence et est plus interprétable. De plus, le MIM peut être affiné pour apprendre des styles supplémentaires avec une seule image. Nous espérons encourager une exploration plus approfondie du MIM en démontrant son efficacité pour la génération d'images à grande échelle à partir de texte et en publiant un code d'entraînement reproductible. Nous publions également des points de contrôle pour deux modèles qui produisent directement des images aux résolutions 256x256 et 512x512.
English
We present aMUSEd, an open-source, lightweight masked image model (MIM) for
text-to-image generation based on MUSE. With 10 percent of MUSE's parameters,
aMUSEd is focused on fast image generation. We believe MIM is under-explored
compared to latent diffusion, the prevailing approach for text-to-image
generation. Compared to latent diffusion, MIM requires fewer inference steps
and is more interpretable. Additionally, MIM can be fine-tuned to learn
additional styles with only a single image. We hope to encourage further
exploration of MIM by demonstrating its effectiveness on large-scale
text-to-image generation and releasing reproducible training code. We also
release checkpoints for two models which directly produce images at 256x256 and
512x512 resolutions.