aMUSEd : Une reproduction ouverte de MUSE

papers.abstract

Nous présentons aMUSEd, un modèle masqué d'images (MIM) open-source et léger pour la génération d'images à partir de texte, basé sur MUSE. Avec seulement 10 % des paramètres de MUSE, aMUSEd est conçu pour une génération rapide d'images. Nous pensons que le MIM est sous-exploré par rapport à la diffusion latente, l'approche dominante pour la génération d'images à partir de texte. Comparé à la diffusion latente, le MIM nécessite moins d'étapes d'inférence et est plus interprétable. De plus, le MIM peut être affiné pour apprendre des styles supplémentaires avec une seule image. Nous espérons encourager une exploration plus approfondie du MIM en démontrant son efficacité pour la génération d'images à grande échelle à partir de texte et en publiant un code d'entraînement reproductible. Nous publions également des points de contrôle pour deux modèles qui produisent directement des images aux résolutions 256x256 et 512x512.

English

We present aMUSEd, an open-source, lightweight masked image model (MIM) for text-to-image generation based on MUSE. With 10 percent of MUSE's parameters, aMUSEd is focused on fast image generation. We believe MIM is under-explored compared to latent diffusion, the prevailing approach for text-to-image generation. Compared to latent diffusion, MIM requires fewer inference steps and is more interpretable. Additionally, MIM can be fine-tuned to learn additional styles with only a single image. We hope to encourage further exploration of MIM by demonstrating its effectiveness on large-scale text-to-image generation and releasing reproducible training code. We also release checkpoints for two models which directly produce images at 256x256 and 512x512 resolutions.

aMUSEd : Une reproduction ouverte de MUSE

aMUSEd: An Open MUSE Reproduction

papers.abstract

Support