ChatPaper.aiChatPaper

I Modelli Fondamentali per la Visione come Tokenizzatori Visivi Efficaci per la Generazione Autoregressiva di Immagini

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation

July 11, 2025
Autori: Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi
cs.AI

Abstract

Sfruttando le potenti rappresentazioni dei modelli di base pre-addestrati per la visione -- tradizionalmente utilizzati per la comprensione visiva -- esploriamo una nuova direzione: costruire un tokenizer di immagini direttamente su tali modelli, un'area ampiamente inesplorata. Nello specifico, utilizziamo un modello di base per la visione congelato come encoder del nostro tokenizer. Per migliorarne l'efficacia, introduciamo due componenti chiave: (1) un framework di quantizzazione adattiva alle regioni che riduce la ridondanza nelle caratteristiche pre-addestrate su griglie 2D regolari, e (2) un obiettivo di ricostruzione semantica che allinea gli output del tokenizer con le rappresentazioni del modello di base per preservare la fedeltà semantica. Basandoci su questi progetti, il nostro tokenizer di immagini proposto, VFMTok, ottiene miglioramenti sostanziali nella ricostruzione e nella qualità di generazione delle immagini, migliorando anche l'efficienza dei token. Inoltre, potenzia la generazione autoregressiva (AR) -- raggiungendo un gFID di 2.07 sui benchmark di ImageNet, accelerando la convergenza del modello di tre volte e consentendo una sintesi condizionata alla classe ad alta fedeltà senza la necessità di una guida senza classificatore (CFG). Il codice verrà rilasciato pubblicamente a beneficio della comunità.
English
Leveraging the powerful representations of pre-trained vision foundation models -- traditionally used for visual comprehension -- we explore a novel direction: building an image tokenizer directly atop such models, a largely underexplored area. Specifically, we employ a frozen vision foundation model as the encoder of our tokenizer. To enhance its effectiveness, we introduce two key components: (1) a region-adaptive quantization framework that reduces redundancy in the pre-trained features on regular 2D grids, and (2) a semantic reconstruction objective that aligns the tokenizer's outputs with the foundation model's representations to preserve semantic fidelity. Based on these designs, our proposed image tokenizer, VFMTok, achieves substantial improvements in image reconstruction and generation quality, while also enhancing token efficiency. It further boosts autoregressive (AR) generation -- achieving a gFID of 2.07 on ImageNet benchmarks, while accelerating model convergence by three times, and enabling high-fidelity class-conditional synthesis without the need for classifier-free guidance (CFG). The code will be released publicly to benefit the community.
PDF591July 14, 2025