ChatPaper.aiChatPaper

Melhorando a Geração de Imagens Autoregressivas por meio de Predição de Tokens de Grosseiro para Refinado

Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

March 20, 2025
Autores: Ziyao Guo, Kaipeng Zhang, Michael Qizhe Shieh
cs.AI

Resumo

Modelos autoregressivos têm demonstrado sucesso notável na geração de imagens ao adaptar técnicas de previsão sequencial da modelagem de linguagem. No entanto, aplicar essas abordagens a imagens requer a discretização de dados de pixels contínuos por meio de métodos de quantização vetorial, como o VQ-VAE. Para mitigar os erros de quantização presentes no VQ-VAE, trabalhos recentes tendem a usar codebooks maiores. Entretanto, isso expande proporcionalmente o tamanho do vocabulário, complicando a tarefa de modelagem autoregressiva. Este artigo tem como objetivo encontrar uma maneira de aproveitar os benefícios de codebooks grandes sem tornar a modelagem autoregressiva mais difícil. Por meio de investigação empírica, descobrimos que tokens com representações de palavras-código semelhantes produzem efeitos similares na imagem final gerada, revelando uma redundância significativa em codebooks grandes. Com base nessa percepção, propomos prever tokens de forma grossa para fina (CTF), realizada ao atribuir o mesmo rótulo grosso para tokens semelhantes. Nosso framework consiste em duas etapas: (1) um modelo autoregressivo que prevê sequencialmente rótulos grossos para cada token na sequência, e (2) um modelo auxiliar que prevê simultaneamente rótulos refinados para todos os tokens condicionados aos seus rótulos grossos. Experimentos no ImageNet demonstram o desempenho superior do nosso método, alcançando uma melhoria média de 59 pontos no Inception Score em comparação com as baselines. Notavelmente, apesar de adicionar uma etapa de inferência, nossa abordagem alcança velocidades de amostragem mais rápidas.
English
Autoregressive models have shown remarkable success in image generation by adapting sequential prediction techniques from language modeling. However, applying these approaches to images requires discretizing continuous pixel data through vector quantization methods like VQ-VAE. To alleviate the quantization errors that existed in VQ-VAE, recent works tend to use larger codebooks. However, this will accordingly expand vocabulary size, complicating the autoregressive modeling task. This paper aims to find a way to enjoy the benefits of large codebooks without making autoregressive modeling more difficult. Through empirical investigation, we discover that tokens with similar codeword representations produce similar effects on the final generated image, revealing significant redundancy in large codebooks. Based on this insight, we propose to predict tokens from coarse to fine (CTF), realized by assigning the same coarse label for similar tokens. Our framework consists of two stages: (1) an autoregressive model that sequentially predicts coarse labels for each token in the sequence, and (2) an auxiliary model that simultaneously predicts fine-grained labels for all tokens conditioned on their coarse labels. Experiments on ImageNet demonstrate our method's superior performance, achieving an average improvement of 59 points in Inception Score compared to baselines. Notably, despite adding an inference step, our approach achieves faster sampling speeds.

Summary

AI-Generated Summary

PDF82March 21, 2025