Modèles de génération d'images masquées efficaces et performants
Effective and Efficient Masked Image Generation Models
March 10, 2025
Auteurs: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI
Résumé
Bien que les modèles de génération d'images masquées et les modèles de diffusion masquée soient conçus avec des motivations et des objectifs différents, nous observons qu'ils peuvent être unifiés dans un cadre unique. En nous appuyant sur cette observation, nous explorons minutieusement l'espace de conception de l'entraînement et de l'échantillonnage, en identifiant les facteurs clés qui contribuent à la fois à la performance et à l'efficacité. Sur la base des améliorations observées lors de cette exploration, nous développons notre modèle, appelé eMIGM. Empiriquement, eMIGM démontre une forte performance sur la génération d'ImageNet, mesurée par la distance de Fréchet Inception (FID). En particulier, sur ImageNet 256x256, avec un nombre similaire d'évaluations de fonctions (NFE) et de paramètres de modèle, eMIGM surpasse le modèle VAR fondateur. De plus, à mesure que le NFE et les paramètres du modèle augmentent, eMIGM atteint des performances comparables aux modèles de diffusion continus de pointe tout en nécessitant moins de 40 % du NFE. Par ailleurs, sur ImageNet 512x512, avec seulement environ 60 % du NFE, eMIGM surpasse les modèles de diffusion continus de pointe.
English
Although masked image generation models and masked diffusion models are
designed with different motivations and objectives, we observe that they can be
unified within a single framework. Building upon this insight, we carefully
explore the design space of training and sampling, identifying key factors that
contribute to both performance and efficiency. Based on the improvements
observed during this exploration, we develop our model, referred to as eMIGM.
Empirically, eMIGM demonstrates strong performance on ImageNet generation, as
measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet
256x256, with similar number of function evaluations (NFEs) and model
parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model
parameters increase, eMIGM achieves performance comparable to the
state-of-the-art continuous diffusion models while requiring less than 40% of
the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE,
eMIGM outperforms the state-of-the-art continuous diffusion models.Summary
AI-Generated Summary