MergeVQ : Un cadre unifié pour la génération et la représentation visuelles
avec fusion et quantification de tokens désentrelacésMergeVQ: A Unified Framework for Visual Generation and Representation
with Disentangled Token Merging and Quantization
La modélisation d'images masquées (Masked Image Modeling, MIM) avec quantification vectorielle (Vector Quantization, VQ) a obtenu un grand succès à la fois dans le pré-entraînement auto-supervisé et dans la génération d'images. Cependant, la plupart des méthodes existantes peinent à équilibrer le compromis dans l'espace latent partagé entre la qualité de génération et l'apprentissage de représentations, ainsi que l'efficacité. Pour repousser les limites de ce paradigme, nous proposons MergeVQ, qui intègre des techniques de fusion de tokens dans des modèles génératifs basés sur VQ afin de combler l'écart entre la génération d'images et l'apprentissage de représentations visuelles dans une architecture unifiée. Durant le pré-entraînement, MergeVQ découple les sémantiques top-k de l'espace latent grâce au module de fusion de tokens après les blocs d'auto-attention dans l'encodeur, permettant une quantification sans consultation (Look-up Free Quantization, LFQ) et un alignement global, puis restaure leurs détails fins via une attention croisée dans le décodeur pour la reconstruction. Pour la génération en deuxième étape, nous introduisons MergeAR, qui effectue une compression du cache KV pour une prédiction efficace en ordre raster. Des expériences approfondies sur ImageNet confirment que MergeVQ, en tant que modèle génératif AR, atteint des performances compétitives à la fois dans les tâches d'apprentissage de représentations visuelles et de génération d'images, tout en maintenant une efficacité de tokens et une vitesse d'inférence favorables. Le code et le modèle seront disponibles à l'adresse https://apexgen-x.github.io/MergeVQ.