aMUSEd: Eine Open-Source-Reproduktion von MUSE
aMUSEd: An Open MUSE Reproduction
January 3, 2024
Autoren: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
cs.AI
Zusammenfassung
Wir stellen aMUSEd vor, ein quelloffenes, leichtgewichtiges Masked Image Model (MIM) für die Text-zu-Bild-Generierung, das auf MUSE basiert. Mit nur 10 Prozent der Parameter von MUSE konzentriert sich aMUSEd auf schnelle Bildgenerierung. Wir glauben, dass MIM im Vergleich zur latenten Diffusion, dem vorherrschenden Ansatz für die Text-zu-Bild-Generierung, noch nicht ausreichend erforscht ist. Im Vergleich zur latenten Diffusion benötigt MIM weniger Inferenzschritte und ist interpretierbar. Darüber hinaus kann MIM mit nur einem einzigen Bild feinabgestimmt werden, um zusätzliche Stile zu erlernen. Wir hoffen, die weitere Erforschung von MIM zu fördern, indem wir seine Effektivität bei der groß angelegten Text-zu-Bild-Generierung demonstrieren und reproduzierbaren Trainingscode veröffentlichen. Wir stellen auch Checkpoints für zwei Modelle bereit, die direkt Bilder in den Auflösungen 256x256 und 512x512 erzeugen.
English
We present aMUSEd, an open-source, lightweight masked image model (MIM) for
text-to-image generation based on MUSE. With 10 percent of MUSE's parameters,
aMUSEd is focused on fast image generation. We believe MIM is under-explored
compared to latent diffusion, the prevailing approach for text-to-image
generation. Compared to latent diffusion, MIM requires fewer inference steps
and is more interpretable. Additionally, MIM can be fine-tuned to learn
additional styles with only a single image. We hope to encourage further
exploration of MIM by demonstrating its effectiveness on large-scale
text-to-image generation and releasing reproducible training code. We also
release checkpoints for two models which directly produce images at 256x256 and
512x512 resolutions.