ChatPaper.aiChatPaper

Les modèles de fondation visuelle comme tokenizers visuels efficaces pour la génération d'images autorégressive

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

July 11, 2025
papers.authors: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI

papers.abstract

En exploitant les représentations puissantes des modèles de base pré-entraînés pour la vision -- traditionnellement utilisés pour la compréhension visuelle -- nous explorons une nouvelle direction : la construction d'un tokeniseur d'images directement sur de tels modèles, un domaine largement sous-exploré. Plus précisément, nous utilisons un modèle de base pour la vision figé comme encodeur de notre tokeniseur. Pour en améliorer l'efficacité, nous introduisons deux composants clés : (1) un cadre de quantification adaptative par région qui réduit la redondance dans les caractéristiques pré-entraînées sur des grilles 2D régulières, et (2) un objectif de reconstruction sémantique qui aligne les sorties du tokeniseur avec les représentations du modèle de base pour préserver la fidélité sémantique. Sur la base de ces conceptions, notre tokeniseur d'images proposé, VFMTok, obtient des améliorations substantielles dans la reconstruction d'images et la qualité de génération, tout en augmentant l'efficacité des tokens. Il améliore également la génération autorégressive (AR) -- atteignant un gFID de 2,07 sur les benchmarks d'ImageNet, tout en accélérant la convergence du modèle par un facteur de trois, et en permettant une synthèse conditionnelle par classe de haute fidélité sans nécessiter de guidage sans classifieur (CFG). Le code sera rendu public pour bénéficier à la communauté.
English
Leveraging the powerful representations of pre-trained vision foundation models -- traditionally used for visual comprehension -- we explore a novel direction: building an image tokenizer directly atop such models, a largely underexplored area. Specifically, we employ a frozen vision foundation model as the encoder of our tokenizer. To enhance its effectiveness, we introduce two key components: (1) a region-adaptive quantization framework that reduces redundancy in the pre-trained features on regular 2D grids, and (2) a semantic reconstruction objective that aligns the tokenizer's outputs with the foundation model's representations to preserve semantic fidelity. Based on these designs, our proposed image tokenizer, VFMTok, achieves substantial improvements in image reconstruction and generation quality, while also enhancing token efficiency. It further boosts autoregressive (AR) generation -- achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model convergence by three times, and enabling high-fidelity class-conditional synthesis without the need for classifier-free guidance (CFG). The code will be released publicly to benefit the community.
PDF541July 14, 2025