Modelos de Fundação de Visão como Tokenizadores Visuais Eficientes para Geração Autoregressiva de Imagens
Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation
July 11, 2025
Autores: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI
Resumo
Aproveitando as poderosas representações de modelos de visão pré-treinados — tradicionalmente usados para compreensão visual — exploramos uma nova direção: a construção de um tokenizador de imagens diretamente sobre tais modelos, uma área amplamente subexplorada. Especificamente, empregamos um modelo de visão pré-treinado e congelado como o codificador do nosso tokenizador. Para aumentar sua eficácia, introduzimos dois componentes-chave: (1) um framework de quantização adaptativa por região que reduz a redundância nas características pré-treinadas em grades 2D regulares, e (2) um objetivo de reconstrução semântica que alinha as saídas do tokenizador com as representações do modelo de base para preservar a fidelidade semântica. Com base nesses projetos, nosso tokenizador de imagens proposto, VFMTok, alcança melhorias substanciais na qualidade de reconstrução e geração de imagens, ao mesmo tempo em que aumenta a eficiência dos tokens. Ele ainda impulsiona a geração autoregressiva (AR) — atingindo um gFID de 2,07 em benchmarks do ImageNet, enquanto acelera a convergência do modelo em três vezes e permite síntese condicional de alta fidelidade sem a necessidade de orientação sem classificador (CFG). O código será liberado publicamente para beneficiar a comunidade.
English
Leveraging the powerful representations of pre-trained vision foundation
models -- traditionally used for visual comprehension -- we explore a novel
direction: building an image tokenizer directly atop such models, a largely
underexplored area. Specifically, we employ a frozen vision foundation model as
the encoder of our tokenizer. To enhance its effectiveness, we introduce two
key components: (1) a region-adaptive quantization framework that reduces
redundancy in the pre-trained features on regular 2D grids, and (2) a semantic
reconstruction objective that aligns the tokenizer's outputs with the
foundation model's representations to preserve semantic fidelity. Based on
these designs, our proposed image tokenizer, VFMTok, achieves substantial
improvements in image reconstruction and generation quality, while also
enhancing token efficiency. It further boosts autoregressive (AR) generation --
achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model
convergence by three times, and enabling high-fidelity class-conditional
synthesis without the need for classifier-free guidance (CFG). The code will be
released publicly to benefit the community.