Accélération de la génération d'images masquées par l'apprentissage de dynamiques contrôlées en espace latent
Accelerating Masked Image Generation by Learning Latent Controlled Dynamics
February 27, 2026
Auteurs: Kaiwen Zhu, Quansheng Zeng, Yuandong Pu, Shuo Cao, Xiaohui Li, Yi Xin, Qi Qin, Jiayang Li, Yu Qiao, Jinjin Gu, Yihao Liu
cs.AI
Résumé
Les modèles de génération d'images masquées (MIGMs) ont connu un grand succès, mais leur efficacité est entravée par les multiples étapes d'attention bidirectionnelle. En réalité, il existe une redondance notable dans leur calcul : lors de l'échantillonnage de tokens discrets, la riche sémantique contenue dans les caractéristiques continues est perdue. Certains travaux existants tentent de mettre en cache les caractéristiques pour approximer les caractéristiques futures. Cependant, ils présentent une erreur d'approximation considérable sous des taux d'accélération agressifs. Nous attribuons cela à leur expressivité limitée et à l'incapacité de prendre en compte l'information d'échantillonnage. Pour combler cette lacune, nous proposons d'apprendre un modèle léger qui intègre à la fois les caractéristiques précédentes et les tokens échantillonnés, et qui régresse le champ de vitesse moyen de l'évolution des caractéristiques. Le modèle a une complexité modérée suffisante pour capturer la dynamique subtile tout en restant léger par rapport au modèle de base original. Nous appliquons notre méthode, MIGM-Shortcut, à deux architectures et tâches MIGM représentatives. En particulier, sur le Lumina-DiMOO state-of-the-art, elle permet une accélération de plus de 4x de la génération texte-image tout en maintenant la qualité, repoussant significativement la frontière de Pareto de la génération d'images masquées. Le code et les poids des modèles sont disponibles à l'adresse https://github.com/Kaiwen-Zhu/MIGM-Shortcut.
English
Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.