ChatPaper.aiChatPaper

효율적이고 효과적인 마스크 이미지 생성 모델

Effective and Efficient Masked Image Generation Models

March 10, 2025
저자: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI

초록

마스킹된 이미지 생성 모델과 마스킹된 확산 모델은 서로 다른 동기와 목표로 설계되었지만, 우리는 이들이 단일 프레임워크 내에서 통합될 수 있음을 관찰했습니다. 이러한 통찰을 바탕으로, 우리는 훈련과 샘플링의 설계 공간을 신중하게 탐구하며 성능과 효율성에 기여하는 핵심 요소들을 식별했습니다. 이 탐구 과정에서 관찰된 개선점들을 바탕으로, 우리는 eMIGM이라 불리는 모델을 개발했습니다. 실험적으로, eMIGM은 Fréchet Inception Distance(FID)로 측정한 ImageNet 생성에서 강력한 성능을 보여주었습니다. 특히, ImageNet 256x256에서 유사한 함수 평가 횟수(NFEs)와 모델 파라미터 수를 가진 조건에서 eMIGM은 기념비적인 VAR 모델을 능가했습니다. 더욱이, NFE와 모델 파라미터가 증가함에 따라 eMIGM은 최신 연속 확산 모델들과 비슷한 성능을 달성하면서도 NFE의 40% 미만만을 필요로 했습니다. 또한, ImageNet 512x512에서는 약 60%의 NFE만으로도 eMIGM은 최신 연속 확산 모델들을 능가하는 성능을 보였습니다.
English
Although masked image generation models and masked diffusion models are designed with different motivations and objectives, we observe that they can be unified within a single framework. Building upon this insight, we carefully explore the design space of training and sampling, identifying key factors that contribute to both performance and efficiency. Based on the improvements observed during this exploration, we develop our model, referred to as eMIGM. Empirically, eMIGM demonstrates strong performance on ImageNet generation, as measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet 256x256, with similar number of function evaluations (NFEs) and model parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model parameters increase, eMIGM achieves performance comparable to the state-of-the-art continuous diffusion models while requiring less than 40% of the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE, eMIGM outperforms the state-of-the-art continuous diffusion models.

Summary

AI-Generated Summary

PDF112March 11, 2025