aMUSEd: Открытая реализация MUSE

Аннотация

Мы представляем aMUSEd — открытую, легковесную модель с маскированием изображений (MIM) для генерации изображений по тексту, основанную на MUSE. С 10% параметров MUSE, aMUSEd ориентирована на быструю генерацию изображений. Мы считаем, что MIM недостаточно изучена по сравнению с латентной диффузией, которая является преобладающим подходом для генерации изображений по тексту. По сравнению с латентной диффузией, MIM требует меньше шагов вывода и является более интерпретируемой. Кроме того, MIM может быть дообучена для освоения дополнительных стилей с использованием всего одного изображения. Мы надеемся стимулировать дальнейшее исследование MIM, демонстрируя её эффективность в крупномасштабной генерации изображений по тексту и публикуя воспроизводимый код для обучения. Мы также предоставляем контрольные точки для двух моделей, которые напрямую генерируют изображения с разрешениями 256x256 и 512x512.

English

We present aMUSEd, an open-source, lightweight masked image model (MIM) for text-to-image generation based on MUSE. With 10 percent of MUSE's parameters, aMUSEd is focused on fast image generation. We believe MIM is under-explored compared to latent diffusion, the prevailing approach for text-to-image generation. Compared to latent diffusion, MIM requires fewer inference steps and is more interpretable. Additionally, MIM can be fine-tuned to learn additional styles with only a single image. We hope to encourage further exploration of MIM by demonstrating its effectiveness on large-scale text-to-image generation and releasing reproducible training code. We also release checkpoints for two models which directly produce images at 256x256 and 512x512 resolutions.

aMUSEd: Открытая реализация MUSE

aMUSEd: An Open MUSE Reproduction

Аннотация

Support