MergeVQ: Un Framework Unificato per la Generazione e la Rappresentazione Visiva con Fusione e Quantizzazione di Token DisaccoppiatiMergeVQ: A Unified Framework for Visual Generation and Representation
with Disentangled Token Merging and Quantization
Il Masked Image Modeling (MIM) con Vector Quantization (VQ) ha ottenuto un grande successo sia nel pre-training auto-supervisionato che nella generazione di immagini. Tuttavia, la maggior parte dei metodi esistenti fatica a bilanciare il compromesso nello spazio latente condiviso tra qualità della generazione, apprendimento di rappresentazioni ed efficienza. Per spingere al limite questo paradigma, proponiamo MergeVQ, che incorpora tecniche di fusione di token nei modelli generativi basati su VQ per colmare il divario tra generazione di immagini e apprendimento di rappresentazioni visive in un'architettura unificata. Durante il pre-training, MergeVQ disaccoppia la semantica top-k dallo spazio latente tramite il modulo di fusione di token dopo i blocchi di self-attention nell'encoder, per poi applicare la Look-up Free Quantization (LFQ) e l'allineamento globale, e recupera i dettagli fini attraverso il cross-attention nel decoder per la ricostruzione. Per la generazione in seconda fase, introduciamo MergeAR, che esegue la compressione della KV Cache per una predizione efficiente in ordine raster. Esperimenti estensivi su ImageNet verificano che MergeVQ, come modello generativo AR, raggiunge prestazioni competitive sia nei compiti di apprendimento di rappresentazioni visive che di generazione di immagini, mantenendo al contempo un'efficienza favorevole dei token e una velocità di inferenza. Il codice e il modello saranno disponibili su https://apexgen-x.github.io/MergeVQ.