効果的かつ効率的なマスク画像生成モデル
Effective and Efficient Masked Image Generation Models
March 10, 2025
著者: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI
要旨
マスク画像生成モデルとマスク拡散モデルは、異なる動機と目的で設計されていますが、これらを単一のフレームワーク内で統合できることが観察されました。この洞察に基づき、トレーニングとサンプリングの設計空間を慎重に探求し、性能と効率の両方に寄与する主要な要因を特定しました。この探求中に観察された改善点に基づいて、eMIGMと呼ばれるモデルを開発しました。経験的に、eMIGMはImageNet生成において、Fr\'echet Inception Distance(FID)で測定される強力な性能を示しています。特に、ImageNet 256x256では、同程度の関数評価回数(NFE)とモデルパラメータ数で、eMIGMは画期的なVARを上回りました。さらに、NFEとモデルパラメータが増加するにつれて、eMIGMは最先端の連続拡散モデルに匹敵する性能を達成し、NFEの40%未満しか必要としませんでした。加えて、ImageNet 512x512では、NFEの約60%のみで、eMIGMは最先端の連続拡散モデルを上回りました。
English
Although masked image generation models and masked diffusion models are
designed with different motivations and objectives, we observe that they can be
unified within a single framework. Building upon this insight, we carefully
explore the design space of training and sampling, identifying key factors that
contribute to both performance and efficiency. Based on the improvements
observed during this exploration, we develop our model, referred to as eMIGM.
Empirically, eMIGM demonstrates strong performance on ImageNet generation, as
measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet
256x256, with similar number of function evaluations (NFEs) and model
parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model
parameters increase, eMIGM achieves performance comparable to the
state-of-the-art continuous diffusion models while requiring less than 40% of
the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE,
eMIGM outperforms the state-of-the-art continuous diffusion models.Summary
AI-Generated Summary