MergeVQ : Un cadre unifié pour la génération et la représentation visuelles avec fusion et quantification de tokens désentrelacés

papers.abstract

La modélisation d'images masquées (Masked Image Modeling, MIM) avec quantification vectorielle (Vector Quantization, VQ) a obtenu un grand succès à la fois dans le pré-entraînement auto-supervisé et dans la génération d'images. Cependant, la plupart des méthodes existantes peinent à équilibrer le compromis dans l'espace latent partagé entre la qualité de génération et l'apprentissage de représentations, ainsi que l'efficacité. Pour repousser les limites de ce paradigme, nous proposons MergeVQ, qui intègre des techniques de fusion de tokens dans des modèles génératifs basés sur VQ afin de combler l'écart entre la génération d'images et l'apprentissage de représentations visuelles dans une architecture unifiée. Durant le pré-entraînement, MergeVQ découple les sémantiques top-k de l'espace latent grâce au module de fusion de tokens après les blocs d'auto-attention dans l'encodeur, permettant une quantification sans consultation (Look-up Free Quantization, LFQ) et un alignement global, puis restaure leurs détails fins via une attention croisée dans le décodeur pour la reconstruction. Pour la génération en deuxième étape, nous introduisons MergeAR, qui effectue une compression du cache KV pour une prédiction efficace en ordre raster. Des expériences approfondies sur ImageNet confirment que MergeVQ, en tant que modèle génératif AR, atteint des performances compétitives à la fois dans les tâches d'apprentissage de représentations visuelles et de génération d'images, tout en maintenant une efficacité de tokens et une vitesse d'inférence favorables. Le code et le modèle seront disponibles à l'adresse https://apexgen-x.github.io/MergeVQ.

English

Masked Image Modeling (MIM) with Vector Quantization (VQ) has achieved great success in both self-supervised pre-training and image generation. However, most existing methods struggle to address the trade-off in shared latent space for generation quality vs. representation learning and efficiency. To push the limits of this paradigm, we propose MergeVQ, which incorporates token merging techniques into VQ-based generative models to bridge the gap between image generation and visual representation learning in a unified architecture. During pre-training, MergeVQ decouples top-k semantics from latent space with the token merge module after self-attention blocks in the encoder for subsequent Look-up Free Quantization (LFQ) and global alignment and recovers their fine-grained details through cross-attention in the decoder for reconstruction. As for the second-stage generation, we introduce MergeAR, which performs KV Cache compression for efficient raster-order prediction. Extensive experiments on ImageNet verify that MergeVQ as an AR generative model achieves competitive performance in both visual representation learning and image generation tasks while maintaining favorable token efficiency and inference speed. The code and model will be available at https://apexgen-x.github.io/MergeVQ.

MergeVQ : Un cadre unifié pour la génération et la représentation visuelles avec fusion et quantification de tokens désentrelacés

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

papers.abstract

Support