Эффективные и производительные модели генерации изображений с маскированием
Effective and Efficient Masked Image Generation Models
March 10, 2025
Авторы: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI
Аннотация
Хотя модели генерации изображений с маскированием и диффузионные модели с маскированием разработаны с разными мотивациями и целями, мы наблюдаем, что их можно объединить в рамках единой структуры. Опираясь на это понимание, мы тщательно исследуем пространство проектирования для обучения и сэмплирования, выявляя ключевые факторы, которые способствуют как производительности, так и эффективности. На основе улучшений, обнаруженных в ходе этого исследования, мы разрабатываем нашу модель, названную eMIGM. Эмпирически eMIGM демонстрирует высокую производительность в генерации изображений на наборе данных ImageNet, что измеряется с помощью расстояния Фреше (FID). В частности, на изображениях ImageNet 256x256, при схожем количестве вычислений функций (NFE) и параметров модели, eMIGM превосходит знаковую модель VAR. Более того, с увеличением NFE и параметров модели, eMIGM достигает производительности, сопоставимой с современными непрерывными диффузионными моделями, при этом требуя менее 40% от NFE. Кроме того, на изображениях ImageNet 512x512, используя лишь около 60% от NFE, eMIGM превосходит современные непрерывные диффузионные модели.
English
Although masked image generation models and masked diffusion models are
designed with different motivations and objectives, we observe that they can be
unified within a single framework. Building upon this insight, we carefully
explore the design space of training and sampling, identifying key factors that
contribute to both performance and efficiency. Based on the improvements
observed during this exploration, we develop our model, referred to as eMIGM.
Empirically, eMIGM demonstrates strong performance on ImageNet generation, as
measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet
256x256, with similar number of function evaluations (NFEs) and model
parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model
parameters increase, eMIGM achieves performance comparable to the
state-of-the-art continuous diffusion models while requiring less than 40% of
the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE,
eMIGM outperforms the state-of-the-art continuous diffusion models.Summary
AI-Generated Summary