MergeVQ : Un cadre unifié pour la génération et la représentation visuelles avec fusion et quantification de tokens désentrelacés
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization
April 1, 2025
Auteurs: Siyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei
cs.AI
Résumé
La modélisation d'images masquées (Masked Image Modeling, MIM) avec quantification vectorielle (Vector Quantization, VQ) a obtenu un grand succès à la fois dans le pré-entraînement auto-supervisé et dans la génération d'images. Cependant, la plupart des méthodes existantes peinent à équilibrer le compromis dans l'espace latent partagé entre la qualité de génération et l'apprentissage de représentations, ainsi que l'efficacité. Pour repousser les limites de ce paradigme, nous proposons MergeVQ, qui intègre des techniques de fusion de tokens dans des modèles génératifs basés sur VQ afin de combler l'écart entre la génération d'images et l'apprentissage de représentations visuelles dans une architecture unifiée. Durant le pré-entraînement, MergeVQ découple les sémantiques top-k de l'espace latent grâce au module de fusion de tokens après les blocs d'auto-attention dans l'encodeur, permettant une quantification sans consultation (Look-up Free Quantization, LFQ) et un alignement global, puis restaure leurs détails fins via une attention croisée dans le décodeur pour la reconstruction. Pour la génération en deuxième étape, nous introduisons MergeAR, qui effectue une compression du cache KV pour une prédiction efficace en ordre raster. Des expériences approfondies sur ImageNet confirment que MergeVQ, en tant que modèle génératif AR, atteint des performances compétitives à la fois dans les tâches d'apprentissage de représentations visuelles et de génération d'images, tout en maintenant une efficacité de tokens et une vitesse d'inférence favorables. Le code et le modèle seront disponibles à l'adresse https://apexgen-x.github.io/MergeVQ.
English
Masked Image Modeling (MIM) with Vector Quantization (VQ) has achieved great
success in both self-supervised pre-training and image generation. However,
most existing methods struggle to address the trade-off in shared latent space
for generation quality vs. representation learning and efficiency. To push the
limits of this paradigm, we propose MergeVQ, which incorporates token merging
techniques into VQ-based generative models to bridge the gap between image
generation and visual representation learning in a unified architecture. During
pre-training, MergeVQ decouples top-k semantics from latent space with the
token merge module after self-attention blocks in the encoder for subsequent
Look-up Free Quantization (LFQ) and global alignment and recovers their
fine-grained details through cross-attention in the decoder for reconstruction.
As for the second-stage generation, we introduce MergeAR, which performs KV
Cache compression for efficient raster-order prediction. Extensive experiments
on ImageNet verify that MergeVQ as an AR generative model achieves competitive
performance in both visual representation learning and image generation tasks
while maintaining favorable token efficiency and inference speed. The code and
model will be available at https://apexgen-x.github.io/MergeVQ.Summary
AI-Generated Summary