aMUSEd: Открытая реализация MUSE
aMUSEd: An Open MUSE Reproduction
January 3, 2024
Авторы: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
cs.AI
Аннотация
Мы представляем aMUSEd — открытую, легковесную модель с маскированием изображений (MIM) для генерации изображений по тексту, основанную на MUSE. С 10% параметров MUSE, aMUSEd ориентирована на быструю генерацию изображений. Мы считаем, что MIM недостаточно изучена по сравнению с латентной диффузией, которая является преобладающим подходом для генерации изображений по тексту. По сравнению с латентной диффузией, MIM требует меньше шагов вывода и является более интерпретируемой. Кроме того, MIM может быть дообучена для освоения дополнительных стилей с использованием всего одного изображения. Мы надеемся стимулировать дальнейшее исследование MIM, демонстрируя её эффективность в крупномасштабной генерации изображений по тексту и публикуя воспроизводимый код для обучения. Мы также предоставляем контрольные точки для двух моделей, которые напрямую генерируют изображения с разрешениями 256x256 и 512x512.
English
We present aMUSEd, an open-source, lightweight masked image model (MIM) for
text-to-image generation based on MUSE. With 10 percent of MUSE's parameters,
aMUSEd is focused on fast image generation. We believe MIM is under-explored
compared to latent diffusion, the prevailing approach for text-to-image
generation. Compared to latent diffusion, MIM requires fewer inference steps
and is more interpretable. Additionally, MIM can be fine-tuned to learn
additional styles with only a single image. We hope to encourage further
exploration of MIM by demonstrating its effectiveness on large-scale
text-to-image generation and releasing reproducible training code. We also
release checkpoints for two models which directly produce images at 256x256 and
512x512 resolutions.