Les modèles de fondation visuelle comme tokenizers visuels efficaces pour la génération d'images autorégressive
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
July 11, 2025
papers.authors: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI
papers.abstract
En exploitant les représentations puissantes des modèles de base pré-entraînés pour la vision -- traditionnellement utilisés pour la compréhension visuelle -- nous explorons une nouvelle direction : la construction d'un tokeniseur d'images directement sur de tels modèles, un domaine largement sous-exploré. Plus précisément, nous utilisons un modèle de base pour la vision figé comme encodeur de notre tokeniseur. Pour en améliorer l'efficacité, nous introduisons deux composants clés : (1) un cadre de quantification adaptative par région qui réduit la redondance dans les caractéristiques pré-entraînées sur des grilles 2D régulières, et (2) un objectif de reconstruction sémantique qui aligne les sorties du tokeniseur avec les représentations du modèle de base pour préserver la fidélité sémantique. Sur la base de ces conceptions, notre tokeniseur d'images proposé, VFMTok, obtient des améliorations substantielles dans la reconstruction d'images et la qualité de génération, tout en augmentant l'efficacité des tokens. Il améliore également la génération autorégressive (AR) -- atteignant un gFID de 2,07 sur les benchmarks d'ImageNet, tout en accélérant la convergence du modèle par un facteur de trois, et en permettant une synthèse conditionnelle par classe de haute fidélité sans nécessiter de guidage sans classifieur (CFG). Le code sera rendu public pour bénéficier à la communauté.
English
Leveraging the powerful representations of pre-trained vision foundation
models -- traditionally used for visual comprehension -- we explore a novel
direction: building an image tokenizer directly atop such models, a largely
underexplored area. Specifically, we employ a frozen vision foundation model as
the encoder of our tokenizer. To enhance its effectiveness, we introduce two
key components: (1) a region-adaptive quantization framework that reduces
redundancy in the pre-trained features on regular 2D grids, and (2) a semantic
reconstruction objective that aligns the tokenizer's outputs with the
foundation model's representations to preserve semantic fidelity. Based on
these designs, our proposed image tokenizer, VFMTok, achieves substantial
improvements in image reconstruction and generation quality, while also
enhancing token efficiency. It further boosts autoregressive (AR) generation --
achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model
convergence by three times, and enabling high-fidelity class-conditional
synthesis without the need for classifier-free guidance (CFG). The code will be
released publicly to benefit the community.