aMUSEd: Una Riproduzione Open di MUSE

Abstract

Presentiamo aMUSEd, un modello open-source e leggero per la generazione di immagini mascherate (MIM) basato su MUSE, specificamente progettato per la generazione di immagini da testo. Con solo il 10% dei parametri di MUSE, aMUSEd è focalizzato sulla generazione rapida di immagini. Riteniamo che i modelli MIM siano meno esplorati rispetto alla diffusione latente, l'approccio predominante per la generazione di immagini da testo. Rispetto alla diffusione latente, i modelli MIM richiedono meno passaggi di inferenza e sono più interpretabili. Inoltre, i modelli MIM possono essere ottimizzati per apprendere stili aggiuntivi con una singola immagine. Speriamo di incoraggiare ulteriori esplorazioni dei modelli MIM dimostrando la loro efficacia nella generazione di immagini da testo su larga scala e rilasciando codice di formazione riproducibile. Rilasciamo anche checkpoint per due modelli che producono direttamente immagini con risoluzioni di 256x256 e 512x512.

English

We present aMUSEd, an open-source, lightweight masked image model (MIM) for text-to-image generation based on MUSE. With 10 percent of MUSE's parameters, aMUSEd is focused on fast image generation. We believe MIM is under-explored compared to latent diffusion, the prevailing approach for text-to-image generation. Compared to latent diffusion, MIM requires fewer inference steps and is more interpretable. Additionally, MIM can be fine-tuned to learn additional styles with only a single image. We hope to encourage further exploration of MIM by demonstrating its effectiveness on large-scale text-to-image generation and releasing reproducible training code. We also release checkpoints for two models which directly produce images at 256x256 and 512x512 resolutions.

aMUSEd: Una Riproduzione Open di MUSE

aMUSEd: An Open MUSE Reproduction

Abstract

Support