Vision Foundation Models als Effectieve Visuele Tokenizers voor Autoregressieve Beeldgeneratie
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
July 11, 2025
Auteurs: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI
Samenvatting
Door gebruik te maken van de krachtige representaties van vooraf getrainde visuele basis modellen -- traditioneel gebruikt voor visueel begrip -- verkennen we een nieuwe richting: het bouwen van een beeld-tokenizer direct bovenop dergelijke modellen, een grotendeels onderbelicht gebied. Specifiek gebruiken we een bevroren visueel basis model als de encoder van onze tokenizer. Om de effectiviteit ervan te vergroten, introduceren we twee belangrijke componenten: (1) een regio-adaptief kwantiseringsraamwerk dat redundantie in de vooraf getrainde kenmerken op reguliere 2D-rasterpatronen vermindert, en (2) een semantisch reconstructiedoel dat de uitvoer van de tokenizer uitlijnt met de representaties van het basis model om semantische trouw te behouden. Op basis van deze ontwerpen behaalt onze voorgestelde beeld-tokenizer, VFMTok, aanzienlijke verbeteringen in beeldreconstructie en generatiekwaliteit, terwijl ook de token-efficiëntie wordt verbeterd. Het bevordert verder autoregressieve (AR) generatie -- met een gFID van 2.07 op ImageNet benchmarks, terwijl het modelconvergentie drie keer versnelt, en het mogelijk maakt om hoogwaardige klasse-conditionele synthese te realiseren zonder de noodzaak van classifier-vrije begeleiding (CFG). De code zal openbaar worden vrijgegeven om de gemeenschap te ondersteunen.
English
Leveraging the powerful representations of pre-trained vision foundation
models -- traditionally used for visual comprehension -- we explore a novel
direction: building an image tokenizer directly atop such models, a largely
underexplored area. Specifically, we employ a frozen vision foundation model as
the encoder of our tokenizer. To enhance its effectiveness, we introduce two
key components: (1) a region-adaptive quantization framework that reduces
redundancy in the pre-trained features on regular 2D grids, and (2) a semantic
reconstruction objective that aligns the tokenizer's outputs with the
foundation model's representations to preserve semantic fidelity. Based on
these designs, our proposed image tokenizer, VFMTok, achieves substantial
improvements in image reconstruction and generation quality, while also
enhancing token efficiency. It further boosts autoregressive (AR) generation --
achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model
convergence by three times, and enabling high-fidelity class-conditional
synthesis without the need for classifier-free guidance (CFG). The code will be
released publicly to benefit the community.