ChatPaper.aiChatPaper

Modelos de Fundación de Visión como Tokenizadores Visuales Efectivos para la Generación Autoregresiva de Imágenes

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

July 11, 2025
Autores: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI

Resumen

Aprovechando las potentes representaciones de los modelos fundamentales de visión preentrenados —tradicionalmente utilizados para la comprensión visual—, exploramos una dirección novedosa: la construcción de un tokenizador de imágenes directamente sobre dichos modelos, un área en gran medida poco explorada. Específicamente, empleamos un modelo fundamental de visión congelado como el codificador de nuestro tokenizador. Para mejorar su eficacia, introducimos dos componentes clave: (1) un marco de cuantización adaptativa por regiones que reduce la redundancia en las características preentrenadas en cuadrículas 2D regulares, y (2) un objetivo de reconstrucción semántica que alinea las salidas del tokenizador con las representaciones del modelo fundamental para preservar la fidelidad semántica. Basándonos en estos diseños, nuestro tokenizador de imágenes propuesto, VFMTok, logra mejoras sustanciales en la calidad de la reconstrucción y generación de imágenes, al mismo tiempo que aumenta la eficiencia de los tokens. Además, impulsa la generación autoregresiva (AR) —alcanzando un gFID de 2.07 en los puntos de referencia de ImageNet—, acelera la convergencia del modelo en tres veces y permite la síntesis condicionada por clases de alta fidelidad sin necesidad de guía libre de clasificador (CFG). El código se lanzará públicamente para beneficiar a la comunidad.
English
Leveraging the powerful representations of pre-trained vision foundation models -- traditionally used for visual comprehension -- we explore a novel direction: building an image tokenizer directly atop such models, a largely underexplored area. Specifically, we employ a frozen vision foundation model as the encoder of our tokenizer. To enhance its effectiveness, we introduce two key components: (1) a region-adaptive quantization framework that reduces redundancy in the pre-trained features on regular 2D grids, and (2) a semantic reconstruction objective that aligns the tokenizer's outputs with the foundation model's representations to preserve semantic fidelity. Based on these designs, our proposed image tokenizer, VFMTok, achieves substantial improvements in image reconstruction and generation quality, while also enhancing token efficiency. It further boosts autoregressive (AR) generation -- achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model convergence by three times, and enabling high-fidelity class-conditional synthesis without the need for classifier-free guidance (CFG). The code will be released publicly to benefit the community.
PDF541July 14, 2025