Ускорение генерации замаскированных изображений за счет изучения управляемой динамики в латентном пространстве
Accelerating Masked Image Generation by Learning Latent Controlled Dynamics
February 27, 2026
Авторы: Kaiwen Zhu, Quansheng Zeng, Yuandong Pu, Shuo Cao, Xiaohui Li, Yi Xin, Qi Qin, Jiayang Li, Yu Qiao, Jinjin Gu, Yihao Liu
cs.AI
Аннотация
Модели маскированного генеративного изображения (MIGM) достигли значительных успехов, однако их эффективность ограничивается многошаговым механизмом двунаправленного внимания. Фактически, в их вычислениях присутствует значительная избыточность: при семплировании дискретных токенов теряется богатая семантика, содержащаяся в непрерывных признаках. Некоторые существующие работы пытаются кэшировать признаки для аппроксимации будущих характеристик. Однако они демонстрируют существенную ошибку аппроксимации при агрессивных коэффициентах ускорения. Мы объясняем это ограниченной выразительной способностью таких методов и игнорированием информации о семплировании. Для устранения этого пробела мы предлагаем обучение легковесной модели, которая учитывает как предыдущие признаки, так и семплированные токены, и регрессирует среднее поле скорости эволюции признаков. Модель обладает умеренной сложностью, достаточной для учета тонкой динамики, оставаясь при этом легковесной по сравнению с исходной базовой моделью. Мы применяем наш метод, MIGM-Shortcut, к двум репрезентативным архитектурам MIGM и задачам. В частности, для передовой модели Lumina-DiMOO метод обеспечивает более чем 4-кратное ускорение генерации изображений по текстовому описанию с сохранением качества, значительно сдвигая паретовскую границу возможностей маскированной генерации изображений. Код и веса моделей доступны по адресу https://github.com/Kaiwen-Zhu/MIGM-Shortcut.
English
Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.