Effectieve en efficiënte gemaskeerde beeldgeneratiemodellen
Effective and Efficient Masked Image Generation Models
March 10, 2025
Auteurs: Zebin You, Jingyang Ou, Xiaolu Zhang, Jun Hu, Jun Zhou, Chongxuan Li
cs.AI
Samenvatting
Hoewel gemaskerde beeldgeneratiemodellen en gemaskerde diffusiemodellen zijn ontworpen met verschillende motivaties en doelstellingen, observeren we dat ze binnen een enkel raamwerk kunnen worden verenigd. Op basis van dit inzicht verkennen we zorgvuldig de ontwerpruimte van training en sampling, waarbij we belangrijke factoren identificeren die bijdragen aan zowel prestaties als efficiëntie. Gebaseerd op de verbeteringen die tijdens deze verkenning zijn waargenomen, ontwikkelen we ons model, genaamd eMIGM. Empirisch toont eMIGM sterke prestaties bij het genereren van ImageNet, zoals gemeten door de Fréchet Inception Distance (FID). In het bijzonder presteert eMIGM op ImageNet 256x256, met een vergelijkbaar aantal functie-evaluaties (NFEs) en modelparameters, beter dan het baanbrekende VAR. Bovendien, naarmate NFE en modelparameters toenemen, bereikt eMIGM prestaties die vergelijkbaar zijn met de state-of-the-art continue diffusiemodellen, terwijl minder dan 40% van de NFE nodig is. Daarnaast presteert eMIGM op ImageNet 512x512, met slechts ongeveer 60% van de NFE, beter dan de state-of-the-art continue diffusiemodellen.
English
Although masked image generation models and masked diffusion models are
designed with different motivations and objectives, we observe that they can be
unified within a single framework. Building upon this insight, we carefully
explore the design space of training and sampling, identifying key factors that
contribute to both performance and efficiency. Based on the improvements
observed during this exploration, we develop our model, referred to as eMIGM.
Empirically, eMIGM demonstrates strong performance on ImageNet generation, as
measured by Fr\'echet Inception Distance (FID). In particular, on ImageNet
256x256, with similar number of function evaluations (NFEs) and model
parameters, eMIGM outperforms the seminal VAR. Moreover, as NFE and model
parameters increase, eMIGM achieves performance comparable to the
state-of-the-art continuous diffusion models while requiring less than 40% of
the NFE. Additionally, on ImageNet 512x512, with only about 60% of the NFE,
eMIGM outperforms the state-of-the-art continuous diffusion models.Summary
AI-Generated Summary