Versnelling van Gemaskeerde Afbeeldingsgeneratie door Leren van Latent-gestuurde Dynamieken

Samenvatting

Gemaskerde beeldgeneratiemodellen (MIGM's) hebben grote successen geboekt, maar hun efficiëntie wordt belemmerd door de meerdere stappen van bidirectionele aandacht. In feite bestaat er aanzienlijke redundantie in hun berekeningen: bij het samplen van discrete tokens gaan de rijke semantiek in continue kenmerken verloren. Sommige bestaande werken proberen kenmerken te cachen om toekomstige kenmerken te benaderen. Deze vertonen echter aanzienlijke benaderingsfouten onder agressieve versnellingspercentages. Wij schrijven dit toe aan hun beperkte expressiviteit en het niet meenemen van sample-informatie. Om deze kloof te dichten, stellen wij voor een lichtgewicht model te leren dat zowel eerdere kenmerken als gesampelde tokens incorporeert en het gemiddelde snelheidsveld van kenmerkevolutie regresseert. Het model heeft een gematigde complexiteit die voldoende is om de subtiele dynamiek vast te leggen, terwijl het lichtgewicht blijft vergeleken met het oorspronkelijke basismodel. Wij passen onze methode, MIGM-Shortcut, toe op twee representatieve MIGM-architecturen en taken. Op de state-of-the-art Lumina-DiTO bereikt het met name een meer dan 4x versnelling van tekst-naar-beeldgeneratie met behoud van kwaliteit, waardoor de Pareto-grens van gemaskeerde beeldgeneratie aanzienlijk wordt verlegd. De code en modelgewichten zijn beschikbaar op https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

English

Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

Versnelling van Gemaskeerde Afbeeldingsgeneratie door Leren van Latent-gestuurde Dynamieken

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Samenvatting

Support