ChatPaper.aiChatPaper

Vision Foundation Models als effektive visuelle Tokenizer für autoregressive Bildgenerierung

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

July 11, 2025
papers.authors: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI

papers.abstract

Indem wir die leistungsstarken Repräsentationen vortrainierter visueller Basismodelle nutzen – traditionell für das visuelle Verständnis eingesetzt – erkunden wir eine neuartige Richtung: den Aufbau eines Bild-Tokenizers direkt auf der Grundlage solcher Modelle, ein bisher weitgehend unerforschtes Gebiet. Konkret verwenden wir ein eingefrorenes visuelles Basismodell als Encoder unseres Tokenizers. Um dessen Effektivität zu steigern, führen wir zwei Schlüsselkomponenten ein: (1) ein regionsadaptives Quantisierungsframework, das Redundanzen in den vortrainierten Merkmalen auf regulären 2D-Gittern reduziert, und (2) ein semantisches Rekonstruktionsziel, das die Ausgaben des Tokenizers mit den Repräsentationen des Basismodells abstimmt, um die semantische Treue zu bewahren. Basierend auf diesen Konzepten erreicht unser vorgeschlagener Bild-Tokenizer, VFMTok, erhebliche Verbesserungen in der Bildrekonstruktion und Generierungsqualität, während gleichzeitig die Token-Effizienz gesteigert wird. Er verbessert zudem die autoregressive (AR) Generierung – mit einem gFID von 2,07 auf ImageNet-Benchmarks, beschleunigt die Modellkonvergenz um das Dreifache und ermöglicht eine hochpräzise klassenkonditionale Synthese ohne die Notwendigkeit einer klassifikatorfreien Führung (CFG). Der Code wird öffentlich freigegeben, um der Gemeinschaft zugutekommen.
English
Leveraging the powerful representations of pre-trained vision foundation models -- traditionally used for visual comprehension -- we explore a novel direction: building an image tokenizer directly atop such models, a largely underexplored area. Specifically, we employ a frozen vision foundation model as the encoder of our tokenizer. To enhance its effectiveness, we introduce two key components: (1) a region-adaptive quantization framework that reduces redundancy in the pre-trained features on regular 2D grids, and (2) a semantic reconstruction objective that aligns the tokenizer's outputs with the foundation model's representations to preserve semantic fidelity. Based on these designs, our proposed image tokenizer, VFMTok, achieves substantial improvements in image reconstruction and generation quality, while also enhancing token efficiency. It further boosts autoregressive (AR) generation -- achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model convergence by three times, and enabling high-fidelity class-conditional synthesis without the need for classifier-free guidance (CFG). The code will be released publicly to benefit the community.
PDF541July 14, 2025