Modelos Eficazes e Eficientes para Geração de Imagens Mascaradas
Effective and Efficient Masked Image Generation Models
March 10, 2025
Autores: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI
Resumo
Embora os modelos de geração de imagens mascaradas e os modelos de difusão mascarada sejam projetados com motivações e objetivos diferentes, observamos que eles podem ser unificados em um único framework. Com base nessa percepção, exploramos cuidadosamente o espaço de design de treinamento e amostragem, identificando fatores-chave que contribuem tanto para o desempenho quanto para a eficiência. Com base nas melhorias observadas durante essa exploração, desenvolvemos nosso modelo, denominado eMIGM. Empiricamente, o eMIGM demonstra um forte desempenho na geração de imagens do ImageNet, conforme medido pela Distância de Inception de Fréchet (FID). Em particular, no ImageNet 256x256, com um número similar de avaliações de função (NFEs) e parâmetros do modelo, o eMIGM supera o seminal VAR. Além disso, à medida que o NFE e os parâmetros do modelo aumentam, o eMIGM alcança um desempenho comparável aos modelos de difusão contínua de última geração, exigindo menos de 40% do NFE. Adicionalmente, no ImageNet 512x512, com apenas cerca de 60% do NFE, o eMIGM supera os modelos de difusão contínua de última geração.
English
Although masked image generation models and masked diffusion models are
designed with different motivations and objectives, we observe that they can be
unified within a single framework. Building upon this insight, we carefully
explore the design space of training and sampling, identifying key factors that
contribute to both performance and efficiency. Based on the improvements
observed during this exploration, we develop our model, referred to as eMIGM.
Empirically, eMIGM demonstrates strong performance on ImageNet generation, as
measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet
256x256, with similar number of function evaluations (NFEs) and model
parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model
parameters increase, eMIGM achieves performance comparable to the
state-of-the-art continuous diffusion models while requiring less than 40% of
the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE,
eMIGM outperforms the state-of-the-art continuous diffusion models.Summary
AI-Generated Summary