Aceleración de la Generación de Imágenes Enmascaradas mediante el Aprendizaje de Dinámicas Controladas en el Espacio Latente

Resumen

Los Modelos de Generación de Imágenes Enmascaradas (MIGM) han logrado un gran éxito, pero su eficiencia se ve obstaculizada por los múltiples pasos de atención bidireccional. De hecho, existe una notable redundancia en su cálculo: al muestrear tokens discretos, se pierden las ricas semánticas contenidas en las características continuas. Algunos trabajos existentes intentan almacenar en caché las características para aproximar las características futuras. Sin embargo, exhiben un error de aproximación considerable bajo tasas de aceleración agresivas. Atribuimos esto a su expresividad limitada y a la falta de consideración de la información de muestreo. Para llenar este vacío, proponemos aprender un modelo ligero que incorpore tanto las características previas como los tokens muestreados, y que regrese el campo de velocidad promedio de la evolución de las características. El modelo tiene una complejidad moderada que basta para capturar la dinámica sutil manteniéndose ligero en comparación con el modelo base original. Aplicamos nuestro método, MIGM-Shortcut, a dos arquitecturas y tareas MIGM representativas. En particular, en el estado del arte Lumina-DiT, logra una aceleración de más de 4x en la generación de texto a imagen manteniendo la calidad, empujando significativamente la frontera de Pareto de la generación de imágenes enmascaradas. El código y los pesos del modelo están disponibles en https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

English

Masked Image Generation Models (MIGMs) have achieved great success, yet their efficiency is hampered by the multiple steps of bi-directional attention. In fact, there exists notable redundancy in their computation: when sampling discrete tokens, the rich semantics contained in the continuous features are lost. Some existing works attempt to cache the features to approximate future features. However, they exhibit considerable approximation error under aggressive acceleration rates. We attribute this to their limited expressivity and the failure to account for sampling information. To fill this gap, we propose to learn a lightweight model that incorporates both previous features and sampled tokens, and regresses the average velocity field of feature evolution. The model has moderate complexity that suffices to capture the subtle dynamics while keeping lightweight compared to the original base model. We apply our method, MIGM-Shortcut, to two representative MIGM architectures and tasks. In particular, on the state-of-the-art Lumina-DiMOO, it achieves over 4x acceleration of text-to-image generation while maintaining quality, significantly pushing the Pareto frontier of masked image generation. The code and model weights are available at https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

Aceleración de la Generación de Imágenes Enmascaradas mediante el Aprendizaje de Dinámicas Controladas en el Espacio Latente

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Resumen

Support