Modelos Efectivos y Eficientes para la Generación de Imágenes Enmascaradas
Effective and Efficient Masked Image Generation Models
March 10, 2025
Autores: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI
Resumen
Aunque los modelos de generación de imágenes enmascaradas y los modelos de difusión enmascarada están diseñados con motivaciones y objetivos diferentes, observamos que pueden unificarse dentro de un mismo marco conceptual. Basándonos en esta idea, exploramos detenidamente el espacio de diseño del entrenamiento y muestreo, identificando factores clave que contribuyen tanto al rendimiento como a la eficiencia. A partir de las mejoras observadas durante esta exploración, desarrollamos nuestro modelo, denominado eMIGM. Empíricamente, eMIGM demuestra un rendimiento sólido en la generación de imágenes de ImageNet, medido mediante la Distancia de Fréchet Inception (FID). En particular, en ImageNet 256x256, con un número similar de evaluaciones de función (NFE) y parámetros del modelo, eMIGM supera al seminal VAR. Además, a medida que aumentan los NFE y los parámetros del modelo, eMIGM alcanza un rendimiento comparable a los modelos de difusión continua de última generación, requiriendo menos del 40% de los NFE. Adicionalmente, en ImageNet 512x512, con solo alrededor del 60% de los NFE, eMIGM supera a los modelos de difusión continua más avanzados.
English
Although masked image generation models and masked diffusion models are
designed with different motivations and objectives, we observe that they can be
unified within a single framework. Building upon this insight, we carefully
explore the design space of training and sampling, identifying key factors that
contribute to both performance and efficiency. Based on the improvements
observed during this exploration, we develop our model, referred to as eMIGM.
Empirically, eMIGM demonstrates strong performance on ImageNet generation, as
measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet
256x256, with similar number of function evaluations (NFEs) and model
parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model
parameters increase, eMIGM achieves performance comparable to the
state-of-the-art continuous diffusion models while requiring less than 40% of
the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE,
eMIGM outperforms the state-of-the-art continuous diffusion models.Summary
AI-Generated Summary