ChatPaper.aiChatPaper

粗粒度から細粒度へのトークン予測による自己回帰的画像生成の改善

Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

March 20, 2025
著者: Ziyao Guo, Kaipeng Zhang, Michael Qizhe Shieh
cs.AI

要旨

自己回帰モデルは、言語モデリングから逐次予測技術を適用することで、画像生成において顕著な成功を収めてきました。しかし、これらのアプローチを画像に適用するには、VQ-VAEのようなベクトル量子化手法を用いて連続的なピクセルデータを離散化する必要があります。VQ-VAEに存在する量子化誤差を軽減するため、最近の研究ではより大きなコードブックを使用する傾向があります。しかし、これに伴い語彙サイズが拡大し、自己回帰モデリングのタスクが複雑化します。本論文では、自己回帰モデリングをより困難にすることなく、大きなコードブックの利点を享受する方法を探ることを目的としています。実証的な調査を通じて、類似したコードワード表現を持つトークンが最終的に生成される画像に類似した効果を及ぼすことを発見し、大きなコードブックには重要な冗長性が存在することを明らかにしました。この知見に基づき、類似したトークンに同じ粗いラベルを割り当てることで、粗から細かい(CTF)トークンを予測することを提案します。我々のフレームワークは2つの段階で構成されます:(1)シーケンス内の各トークンの粗いラベルを逐次予測する自己回帰モデル、(2)粗いラベルに基づいて全てのトークンの細かいラベルを同時に予測する補助モデル。ImageNetでの実験により、我々の手法がベースラインと比較してInception Scoreで平均59ポイントの改善を達成し、優れた性能を示すことが実証されました。特に、推論ステップを追加したにもかかわらず、我々のアプローチはより高速なサンプリング速度を実現しています。
English
Autoregressive models have shown remarkable success in image generation by adapting sequential prediction techniques from language modeling. However, applying these approaches to images requires discretizing continuous pixel data through vector quantization methods like VQ-VAE. To alleviate the quantization errors that existed in VQ-VAE, recent works tend to use larger codebooks. However, this will accordingly expand vocabulary size, complicating the autoregressive modeling task. This paper aims to find a way to enjoy the benefits of large codebooks without making autoregressive modeling more difficult. Through empirical investigation, we discover that tokens with similar codeword representations produce similar effects on the final generated image, revealing significant redundancy in large codebooks. Based on this insight, we propose to predict tokens from coarse to fine (CTF), realized by assigning the same coarse label for similar tokens. Our framework consists of two stages: (1) an autoregressive model that sequentially predicts coarse labels for each token in the sequence, and (2) an auxiliary model that simultaneously predicts fine-grained labels for all tokens conditioned on their coarse labels. Experiments on ImageNet demonstrate our method's superior performance, achieving an average improvement of 59 points in Inception Score compared to baselines. Notably, despite adding an inference step, our approach achieves faster sampling speeds.

Summary

AI-Generated Summary

PDF82March 21, 2025