自己回帰的画像生成のための効果的な視覚トークナイザーとしてのビジョンファウンデーションモデル
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
July 11, 2025
著者: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI
要旨
視覚理解に伝統的に使用されてきた事前学習済み視覚基盤モデルの強力な表現力を活用し、我々は新たな方向性を探求する:そのようなモデルの上に直接画像トークナイザを構築すること、これは未開拓の領域である。具体的には、凍結された視覚基盤モデルをトークナイザのエンコーダとして採用する。その効果を高めるために、二つの主要なコンポーネントを導入する:(1) 事前学習済み特徴量の冗長性を削減する領域適応型量子化フレームワーク、および (2) トークナイザの出力を基盤モデルの表現と整合させ、意味的忠実性を保持するための意味的再構成目的関数。これらの設計に基づき、提案する画像トークナイザVFMTokは、画像再構成および生成品質の大幅な向上を達成し、トークン効率も向上させる。さらに、自己回帰(AR)生成を促進し、ImageNetベンチマークでgFID 2.07を達成するとともに、モデルの収束を3倍加速し、クラス条件付き合成を高忠実度で実現するために分類器不要ガイダンス(CFG)を必要としない。コードは公開され、コミュニティの利益となる予定である。
English
Leveraging the powerful representations of pre-trained vision foundation
models -- traditionally used for visual comprehension -- we explore a novel
direction: building an image tokenizer directly atop such models, a largely
underexplored area. Specifically, we employ a frozen vision foundation model as
the encoder of our tokenizer. To enhance its effectiveness, we introduce two
key components: (1) a region-adaptive quantization framework that reduces
redundancy in the pre-trained features on regular 2D grids, and (2) a semantic
reconstruction objective that aligns the tokenizer's outputs with the
foundation model's representations to preserve semantic fidelity. Based on
these designs, our proposed image tokenizer, VFMTok, achieves substantial
improvements in image reconstruction and generation quality, while also
enhancing token efficiency. It further boosts autoregressive (AR) generation --
achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model
convergence by three times, and enabling high-fidelity class-conditional
synthesis without the need for classifier-free guidance (CFG). The code will be
released publicly to benefit the community.