Aceleração da Geração de Imagens Mascaradas por meio da Aprendizagem de Dinâmicas Controladas no Espaço Latente

Resumo

Os Modelos de Geração de Imagens Mascaradas (MIGMs) alcançaram grande sucesso, mas sua eficiência é prejudicada pelos múltiplos passos de atenção bidirecional. Na verdade, existe uma redundância notável em sua computação: ao amostrar tokens discretos, a riqueza semântica contida nas características contínuas é perdida. Alguns trabalhos existentes tentam armazenar em cache as características para aproximar características futuras. No entanto, eles exibem um erro de aproximação considerável sob taxas de aceleração agressivas. Atribuímos isso à sua expressividade limitada e à falha em considerar informações de amostragem. Para preencher essa lacuna, propomos aprender um modelo leve que incorpora tanto características anteriores quanto tokens amostrados, e regride o campo de velocidade média da evolução das características. O modelo possui complexidade moderada, suficiente para capturar a dinâmica sutil, mantendo-se leve em comparação com o modelo base original. Aplicamos nosso método, MIGM-Shortcut, a duas arquiteturas e tarefas MIGM representativas. Em particular, no estado da arte Lumina-DiMOO, ele alcança mais de 4x de aceleração na geração de texto para imagem, mantendo a qualidade, empurrando significativamente a fronteira de Pareto da geração de imagens mascaradas. O código e os pesos do modelo estão disponíveis em https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

English

Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

Aceleração da Geração de Imagens Mascaradas por meio da Aprendizagem de Dinâmicas Controladas no Espaço Latente

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Resumo

Support