Accelerazione della Generazione di Immagini Mascherate Apprendendo Dinamiche Controllate nello Spazio Latente

Abstract

I modelli di generazione di immagini mascherate (MIGM) hanno ottenuto un grande successo, ma la loro efficienza è ostacolata dai molteplici passaggi di attenzione bidirezionale. In effetti, esiste una notevole ridondanza nei loro calcoli: durante il campionamento di token discreti, la ricca semantica contenuta nelle feature continue va persa. Alcuni lavori esistenti tentano di memorizzare nella cache le feature per approssimare quelle future. Tuttavia, questi metodi mostrano un errore di approssimazione considerevole sotto tassi di accelerazione aggressivi. Noi attribuiamo ciò alla loro limitata espressività e all'incapacità di tenere conto delle informazioni di campionamento. Per colmare questa lacuna, proponiamo di apprendere un modello leggero che incorpori sia le feature precedenti che i token campionati, e che regredisca il campo di velocità medio dell'evoluzione delle feature. Il modello ha una complessità moderata, sufficiente per catturare la dinamica sottile pur rimanendo leggero rispetto al modello base originale. Applichiamo il nostro metodo, MIGM-Shortcut, a due architetture e compiti MIGM rappresentativi. In particolare, sul Lumina-DiMOO all'avanguardia, esso raggiunge un'accelerazione di oltre 4x nella generazione di immagini da testo mantenendo la qualità, spingendo significativamente in avanti la frontiera di Pareto della generazione di immagini mascherate. Il codice e i pesi del modello sono disponibili su https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

English

Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

Accelerazione della Generazione di Immagini Mascherate Apprendendo Dinamiche Controllate nello Spazio Latente

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Abstract

Support