aMUSEd: Una Reproducción Abierta de MUSE
aMUSEd: An Open MUSE Reproduction
January 3, 2024
Autores: Suraj Patil, William Berman, Robin Rombach, Patrick von Platen
cs.AI
Resumen
Presentamos aMUSEd, un modelo de imagen enmascarada (MIM) ligero y de código abierto para la generación de imágenes a partir de texto, basado en MUSE. Con solo el 10% de los parámetros de MUSE, aMUSEd está enfocado en la generación rápida de imágenes. Creemos que el enfoque MIM ha sido menos explorado en comparación con la difusión latente, el método predominante para la generación de imágenes a partir de texto. En comparación con la difusión latente, MIM requiere menos pasos de inferencia y es más interpretable. Además, MIM puede ajustarse para aprender estilos adicionales con solo una única imagen. Esperamos fomentar una mayor exploración de MIM al demostrar su eficacia en la generación de imágenes a partir de texto a gran escala y al liberar código de entrenamiento reproducible. También publicamos puntos de control para dos modelos que producen imágenes directamente en resoluciones de 256x256 y 512x512 píxeles.
English
We present aMUSEd, an open-source, lightweight masked image model (MIM) for
text-to-image generation based on MUSE. With 10 percent of MUSE's parameters,
aMUSEd is focused on fast image generation. We believe MIM is under-explored
compared to latent diffusion, the prevailing approach for text-to-image
generation. Compared to latent diffusion, MIM requires fewer inference steps
and is more interpretable. Additionally, MIM can be fine-tuned to learn
additional styles with only a single image. We hope to encourage further
exploration of MIM by demonstrating its effectiveness on large-scale
text-to-image generation and releasing reproducible training code. We also
release checkpoints for two models which directly produce images at 256x256 and
512x512 resolutions.