Mejorando la Generación Autoregresiva de Imágenes mediante Predicción de Tokens de Grueso a Fino
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction
March 20, 2025
Autores: Ziyao Guo, Kaipeng Zhang, Michael Qizhe Shieh
cs.AI
Resumen
Los modelos autorregresivos han demostrado un éxito notable en la generación de imágenes al adaptar técnicas de predicción secuencial provenientes del modelado de lenguaje. Sin embargo, aplicar estos enfoques a imágenes requiere discretizar datos de píxeles continuos mediante métodos de cuantización vectorial como VQ-VAE. Para mitigar los errores de cuantización presentes en VQ-VAE, trabajos recientes tienden a utilizar libros de códigos más grandes. No obstante, esto expande el tamaño del vocabulario, complicando la tarea de modelado autorregresivo. Este artículo busca encontrar una manera de aprovechar los beneficios de los libros de códigos grandes sin dificultar el modelado autorregresivo. A través de una investigación empírica, descubrimos que los tokens con representaciones de palabras código similares producen efectos similares en la imagen generada final, revelando una redundancia significativa en los libros de códigos grandes. Basándonos en esta observación, proponemos predecir tokens de manera gruesa a fina (CTF), implementada asignando la misma etiqueta gruesa a tokens similares. Nuestro marco consta de dos etapas: (1) un modelo autorregresivo que predice secuencialmente etiquetas gruesas para cada token en la secuencia, y (2) un modelo auxiliar que predice simultáneamente etiquetas de grano fino para todos los tokens condicionados en sus etiquetas gruesas. Los experimentos en ImageNet demuestran el rendimiento superior de nuestro método, logrando una mejora promedio de 59 puntos en el Inception Score en comparación con los baselines. Notablemente, a pesar de agregar un paso de inferencia, nuestro enfoque logra velocidades de muestreo más rápidas.
English
Autoregressive models have shown remarkable success in image generation by
adapting sequential prediction techniques from language modeling. However,
applying these approaches to images requires discretizing continuous pixel data
through vector quantization methods like VQ-VAE. To alleviate the quantization
errors that existed in VQ-VAE, recent works tend to use larger codebooks.
However, this will accordingly expand vocabulary size, complicating the
autoregressive modeling task. This paper aims to find a way to enjoy the
benefits of large codebooks without making autoregressive modeling more
difficult. Through empirical investigation, we discover that tokens with
similar codeword representations produce similar effects on the final generated
image, revealing significant redundancy in large codebooks. Based on this
insight, we propose to predict tokens from coarse to fine (CTF), realized by
assigning the same coarse label for similar tokens. Our framework consists of
two stages: (1) an autoregressive model that sequentially predicts coarse
labels for each token in the sequence, and (2) an auxiliary model that
simultaneously predicts fine-grained labels for all tokens conditioned on their
coarse labels. Experiments on ImageNet demonstrate our method's superior
performance, achieving an average improvement of 59 points in Inception Score
compared to baselines. Notably, despite adding an inference step, our approach
achieves faster sampling speeds.Summary
AI-Generated Summary