Beschleunigung der maskierten Bildgenerierung durch Erlernen latenter gesteuerter Dynamiken

Zusammenfassung

Masked Image Generation Models (MIGMs) haben große Erfolge erzielt, doch ihre Effizienz wird durch die mehrstufige bidirektionale Aufmerksamkeit beeinträchtigt. Tatsächlich besteht eine bemerkenswerte Redundanz in ihrer Berechnung: Beim Abtasten diskreter Token gehen die reichhaltigen Semantiken, die in den kontinuierlichen Merkmalen enthalten sind, verloren. Einige bestehende Arbeiten versuchen, die Merkmale zwischenzuspeichern, um zukünftige Merkmale anzunähern. Allerdings weisen sie unter aggressiven Beschleunigungsraten beträchtliche Approximationsfehler auf. Wir führen dies auf ihre begrenzte Ausdrucksfähigkeit und das Versäumnis zurück, Abtastinformationen zu berücksichtigen. Um diese Lücke zu schließen, schlagen wir vor, ein leichtgewichtiges Modell zu lernen, das sowohl vorherige Merkmale als auch abgetastete Token einbezieht und das durchschnittliche Geschwindigkeitsfeld der Merkmalsentwicklung regressiert. Das Modell hat eine moderate Komplexität, die ausreicht, um die subtile Dynamik zu erfassen, während es im Vergleich zum ursprünglichen Basismodell leichtgewichtig bleibt. Wir wenden unsere Methode, MIGM-Shortcut, auf zwei repräsentative MIGM-Architekturen und Aufgaben an. Insbesondere beim state-of-the-art Modell Lumina-DiMOO erreicht es eine über 4-fache Beschleunigung der Text-zu-Bild-Generierung bei gleichbleibender Qualität und verschiebt damit die Pareto-Front der maskierten Bildgenerierung erheblich. Der Code und die Modellgewichte sind unter https://github.com/Kaiwen-Zhu/MIGM-Shortcut verfügbar.

English

Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

Beschleunigung der maskierten Bildgenerierung durch Erlernen latenter gesteuerter Dynamiken

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Zusammenfassung

Support