aMUSEd: Een Open MUSE-reproductie
aMUSEd: An Open MUSE Reproduction
January 3, 2024
Auteurs: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
cs.AI
Samenvatting
We presenteren aMUSEd, een open-source, lichtgewicht masked image model (MIM) voor tekst-naar-beeldgeneratie, gebaseerd op MUSE. Met slechts 10 procent van de parameters van MUSE, is aMUSEd gericht op snelle beeldgeneratie. Wij zijn van mening dat MIM onderbelicht is in vergelijking met latent diffusion, de heersende aanpak voor tekst-naar-beeldgeneratie. In vergelijking met latent diffusion vereist MIM minder inferentiestappen en is het beter interpreteerbaar. Bovendien kan MIM worden afgestemd om aanvullende stijlen te leren met slechts één afbeelding. Wij hopen verder onderzoek naar MIM aan te moedigen door de effectiviteit ervan te demonstreren op grootschalige tekst-naar-beeldgeneratie en reproduceerbare trainingscode vrij te geven. We geven ook checkpoints vrij voor twee modellen die direct beelden produceren met resoluties van 256x256 en 512x512.
English
We present aMUSEd, an open-source, lightweight masked image model (MIM) for
text-to-image generation based on MUSE. With 10 percent of MUSE's parameters,
aMUSEd is focused on fast image generation. We believe MIM is under-explored
compared to latent diffusion, the prevailing approach for text-to-image
generation. Compared to latent diffusion, MIM requires fewer inference steps
and is more interpretable. Additionally, MIM can be fine-tuned to learn
additional styles with only a single image. We hope to encourage further
exploration of MIM by demonstrating its effectiveness on large-scale
text-to-image generation and releasing reproducible training code. We also
release checkpoints for two models which directly produce images at 256x256 and
512x512 resolutions.