ChatPaper.aiChatPaper

Modelos de Fundação de Visão como Tokenizadores Visuais Eficientes para Geração Autoregressiva de Imagens

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

July 11, 2025
Autores: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI

Resumo

Aproveitando as poderosas representações de modelos de visão pré-treinados — tradicionalmente usados para compreensão visual — exploramos uma nova direção: a construção de um tokenizador de imagens diretamente sobre tais modelos, uma área amplamente subexplorada. Especificamente, empregamos um modelo de visão pré-treinado e congelado como o codificador do nosso tokenizador. Para aumentar sua eficácia, introduzimos dois componentes-chave: (1) um framework de quantização adaptativa por região que reduz a redundância nas características pré-treinadas em grades 2D regulares, e (2) um objetivo de reconstrução semântica que alinha as saídas do tokenizador com as representações do modelo de base para preservar a fidelidade semântica. Com base nesses projetos, nosso tokenizador de imagens proposto, VFMTok, alcança melhorias substanciais na qualidade de reconstrução e geração de imagens, ao mesmo tempo em que aumenta a eficiência dos tokens. Ele ainda impulsiona a geração autoregressiva (AR) — atingindo um gFID de 2,07 em benchmarks do ImageNet, enquanto acelera a convergência do modelo em três vezes e permite síntese condicional de alta fidelidade sem a necessidade de orientação sem classificador (CFG). O código será liberado publicamente para beneficiar a comunidade.
English
Leveraging the powerful representations of pre-trained vision foundation models -- traditionally used for visual comprehension -- we explore a novel direction: building an image tokenizer directly atop such models, a largely underexplored area. Specifically, we employ a frozen vision foundation model as the encoder of our tokenizer. To enhance its effectiveness, we introduce two key components: (1) a region-adaptive quantization framework that reduces redundancy in the pre-trained features on regular 2D grids, and (2) a semantic reconstruction objective that aligns the tokenizer's outputs with the foundation model's representations to preserve semantic fidelity. Based on these designs, our proposed image tokenizer, VFMTok, achieves substantial improvements in image reconstruction and generation quality, while also enhancing token efficiency. It further boosts autoregressive (AR) generation -- achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model convergence by three times, and enabling high-fidelity class-conditional synthesis without the need for classifier-free guidance (CFG). The code will be released publicly to benefit the community.
PDF611July 14, 2025