Token-Shuffle: Hacia la Generación de Imágenes de Alta Resolución con Modelos Autoregresivos
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
April 24, 2025
Autores: Xu Ma, Peize Sun, Haoyu Ma, Hao Tang, Chih-Yao Ma, Jialiang Wang, Kunpeng Li, Xiaoliang Dai, Yujun Shi, Xuan Ju, Yushi Hu, Artsiom Sanakoyeu, Felix Juefei-Xu, Ji Hou, Junjiao Tian, Tao Xu, Tingbo Hou, Yen-Cheng Liu, Zecheng He, Zijian He, Matt Feiszli, Peizhao Zhang, Peter Vajda, Sam Tsai, Yun Fu
cs.AI
Resumen
Los modelos autorregresivos (AR), que han dominado durante mucho tiempo la generación de lenguaje, se están aplicando cada vez más a la síntesis de imágenes, pero a menudo se consideran menos competitivos que los modelos basados en Difusión. Una limitación principal es el número sustancial de tokens de imagen que requieren los modelos AR, lo que restringe tanto la eficiencia del entrenamiento como de la inferencia, así como la resolución de la imagen. Para abordar esto, presentamos Token-Shuffle, un método novedoso pero simple que reduce el número de tokens de imagen en Transformers. Nuestra idea clave es la redundancia dimensional de los vocabularios visuales en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), donde los códigos visuales de baja dimensión del codificador visual se mapean directamente a vocabularios de lenguaje de alta dimensión. Aprovechando esto, consideramos dos operaciones clave: token-shuffle, que fusiona tokens locales espacialmente a lo largo de la dimensión del canal para disminuir el número de tokens de entrada, y token-unshuffle, que desenreda los tokens inferidos después de los bloques de Transformer para restaurar la disposición espacial en la salida. Entrenado conjuntamente con indicaciones textuales, nuestra estrategia no requiere un codificador de texto preentrenado adicional y permite que los MLLMs admitan la síntesis de imágenes de resolución extremadamente alta de manera unificada mediante la predicción del siguiente token, manteniendo un entrenamiento e inferencia eficientes. Por primera vez, llevamos el límite de la generación de imágenes a partir de texto AR a una resolución de 2048x2048 con un rendimiento de generación satisfactorio. En el benchmark GenAI, nuestro modelo de 2.7B logra una puntuación general de 0.77 en indicaciones difíciles, superando a los modelos AR LlamaGen por 0.18 y a los modelos de difusión LDM por 0.15. Evaluaciones exhaustivas a gran escala por parte de humanos también demuestran nuestra destacada capacidad de generación de imágenes en términos de alineación con el texto, defectos visuales y apariencia visual. Esperamos que Token-Shuffle pueda servir como un diseño fundamental para la generación eficiente de imágenes de alta resolución dentro de los MLLMs.
English
Autoregressive (AR) models, long dominant in language generation, are
increasingly applied to image synthesis but are often considered less
competitive than Diffusion-based models. A primary limitation is the
substantial number of image tokens required for AR models, which constrains
both training and inference efficiency, as well as image resolution. To address
this, we present Token-Shuffle, a novel yet simple method that reduces the
number of image tokens in Transformer. Our key insight is the dimensional
redundancy of visual vocabularies in Multimodal Large Language Models (MLLMs),
where low-dimensional visual codes from visual encoder are directly mapped to
high-dimensional language vocabularies. Leveraging this, we consider two key
operations: token-shuffle, which merges spatially local tokens along channel
dimension to decrease the input token number, and token-unshuffle, which
untangles the inferred tokens after Transformer blocks to restore the spatial
arrangement for output. Jointly training with textual prompts, our strategy
requires no additional pretrained text-encoder and enables MLLMs to support
extremely high-resolution image synthesis in a unified next-token prediction
way while maintaining efficient training and inference. For the first time, we
push the boundary of AR text-to-image generation to a resolution of 2048x2048
with gratifying generation performance. In GenAI-benchmark, our 2.7B model
achieves 0.77 overall score on hard prompts, outperforming AR models LlamaGen
by 0.18 and diffusion models LDM by 0.15. Exhaustive large-scale human
evaluations also demonstrate our prominent image generation ability in terms of
text-alignment, visual flaw, and visual appearance. We hope that Token-Shuffle
can serve as a foundational design for efficient high-resolution image
generation within MLLMs.Summary
AI-Generated Summary