Modelli efficaci ed efficienti per la generazione di immagini mascherate
Effective and Efficient Masked Image Generation Models
March 10, 2025
Autori: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI
Abstract
Sebbene i modelli di generazione di immagini mascherate e i modelli di diffusione mascherata siano progettati con motivazioni e obiettivi diversi, osserviamo che possono essere unificati all'interno di un unico framework. Basandoci su questa intuizione, esploriamo attentamente lo spazio di progettazione dell'addestramento e del campionamento, identificando i fattori chiave che contribuiscono sia alle prestazioni che all'efficienza. Sulla base dei miglioramenti osservati durante questa esplorazione, sviluppiamo il nostro modello, denominato eMIGM. Empiricamente, eMIGM dimostra prestazioni solide nella generazione di ImageNet, misurate tramite la Fréchet Inception Distance (FID). In particolare, su ImageNet 256x256, con un numero simile di valutazioni di funzione (NFE) e parametri del modello, eMIGM supera il seminale VAR. Inoltre, all'aumentare delle NFE e dei parametri del modello, eMIGM raggiunge prestazioni comparabili ai modelli di diffusione continua all'avanguardia, richiedendo meno del 40% delle NFE. Inoltre, su ImageNet 512x512, con solo circa il 60% delle NFE, eMIGM supera i modelli di diffusione continua all'avanguardia.
English
Although masked image generation models and masked diffusion models are
designed with different motivations and objectives, we observe that they can be
unified within a single framework. Building upon this insight, we carefully
explore the design space of training and sampling, identifying key factors that
contribute to both performance and efficiency. Based on the improvements
observed during this exploration, we develop our model, referred to as eMIGM.
Empirically, eMIGM demonstrates strong performance on ImageNet generation, as
measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet
256x256, with similar number of function evaluations (NFEs) and model
parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model
parameters increase, eMIGM achieves performance comparable to the
state-of-the-art continuous diffusion models while requiring less than 40% of
the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE,
eMIGM outperforms the state-of-the-art continuous diffusion models.Summary
AI-Generated Summary