ChatPaper.aiChatPaper

Token-Shuffle: Hacia la Generación de Imágenes de Alta Resolución con Modelos Autoregresivos

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models

April 24, 2025
Autores: Xu Ma, Peize Sun, Haoyu Ma, Hao Tang, Chih-Yao Ma, Jialiang Wang, Kunpeng Li, Xiaoliang Dai, Yujun Shi, Xuan Ju, Yushi Hu, Artsiom Sanakoyeu, Felix Juefei-Xu, Ji Hou, Junjiao Tian, Tao Xu, Tingbo Hou, Yen-Cheng Liu, Zecheng He, Zijian He, Matt Feiszli, Peizhao Zhang, Peter Vajda, Sam Tsai, Yun Fu
cs.AI

Resumen

Los modelos autorregresivos (AR), que han dominado durante mucho tiempo la generación de lenguaje, se están aplicando cada vez más a la síntesis de imágenes, pero a menudo se consideran menos competitivos que los modelos basados en Difusión. Una limitación principal es el número sustancial de tokens de imagen que requieren los modelos AR, lo que restringe tanto la eficiencia del entrenamiento como de la inferencia, así como la resolución de la imagen. Para abordar esto, presentamos Token-Shuffle, un método novedoso pero simple que reduce el número de tokens de imagen en Transformers. Nuestra idea clave es la redundancia dimensional de los vocabularios visuales en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), donde los códigos visuales de baja dimensión del codificador visual se mapean directamente a vocabularios de lenguaje de alta dimensión. Aprovechando esto, consideramos dos operaciones clave: token-shuffle, que fusiona tokens locales espacialmente a lo largo de la dimensión del canal para disminuir el número de tokens de entrada, y token-unshuffle, que desenreda los tokens inferidos después de los bloques de Transformer para restaurar la disposición espacial en la salida. Entrenado conjuntamente con indicaciones textuales, nuestra estrategia no requiere un codificador de texto preentrenado adicional y permite que los MLLMs admitan la síntesis de imágenes de resolución extremadamente alta de manera unificada mediante la predicción del siguiente token, manteniendo un entrenamiento e inferencia eficientes. Por primera vez, llevamos el límite de la generación de imágenes a partir de texto AR a una resolución de 2048x2048 con un rendimiento de generación satisfactorio. En el benchmark GenAI, nuestro modelo de 2.7B logra una puntuación general de 0.77 en indicaciones difíciles, superando a los modelos AR LlamaGen por 0.18 y a los modelos de difusión LDM por 0.15. Evaluaciones exhaustivas a gran escala por parte de humanos también demuestran nuestra destacada capacidad de generación de imágenes en términos de alineación con el texto, defectos visuales y apariencia visual. Esperamos que Token-Shuffle pueda servir como un diseño fundamental para la generación eficiente de imágenes de alta resolución dentro de los MLLMs.
English
Autoregressive (AR) models, long dominant in language generation, are increasingly applied to image synthesis but are often considered less competitive than Diffusion-based models. A primary limitation is the substantial number of image tokens required for AR models, which constrains both training and inference efficiency, as well as image resolution. To address this, we present Token-Shuffle, a novel yet simple method that reduces the number of image tokens in Transformer. Our key insight is the dimensional redundancy of visual vocabularies in Multimodal Large Language Models (MLLMs), where low-dimensional visual codes from visual encoder are directly mapped to high-dimensional language vocabularies. Leveraging this, we consider two key operations: token-shuffle, which merges spatially local tokens along channel dimension to decrease the input token number, and token-unshuffle, which untangles the inferred tokens after Transformer blocks to restore the spatial arrangement for output. Jointly training with textual prompts, our strategy requires no additional pretrained text-encoder and enables MLLMs to support extremely high-resolution image synthesis in a unified next-token prediction way while maintaining efficient training and inference. For the first time, we push the boundary of AR text-to-image generation to a resolution of 2048x2048 with gratifying generation performance. In GenAI-benchmark, our 2.7B model achieves 0.77 overall score on hard prompts, outperforming AR models LlamaGen by 0.18 and diffusion models LDM by 0.15. Exhaustive large-scale human evaluations also demonstrate our prominent image generation ability in terms of text-alignment, visual flaw, and visual appearance. We hope that Token-Shuffle can serve as a foundational design for efficient high-resolution image generation within MLLMs.

Summary

AI-Generated Summary

PDF223April 25, 2025