MergeVQ: Un Marco Unificado para la Generación y Representación Visual con Fusión de Tokens Desenredada y Cuantización
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization
April 1, 2025
Autores: Siyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei
cs.AI
Resumen
El Modelado de Imágenes Enmascaradas (MIM) con Cuantización Vectorial (VQ) ha logrado un gran éxito tanto en el preentrenamiento autosupervisado como en la generación de imágenes. Sin embargo, la mayoría de los métodos existentes tienen dificultades para abordar el equilibrio en el espacio latente compartido entre la calidad de generación y el aprendizaje de representaciones, así como la eficiencia. Para superar los límites de este paradigma, proponemos MergeVQ, que incorpora técnicas de fusión de tokens en modelos generativos basados en VQ para cerrar la brecha entre la generación de imágenes y el aprendizaje de representaciones visuales en una arquitectura unificada. Durante el preentrenamiento, MergeVQ desacopla la semántica top-k del espacio latente mediante el módulo de fusión de tokens después de los bloques de auto-atención en el codificador, para realizar posteriormente la Cuantización sin Búsqueda (LFQ) y la alineación global, y recupera los detalles finos a través de la atención cruzada en el decodificador para la reconstrucción. En cuanto a la generación en la segunda etapa, introducimos MergeAR, que realiza la compresión de la caché KV para una predicción eficiente en orden raster. Experimentos extensos en ImageNet verifican que MergeVQ, como modelo generativo AR, logra un rendimiento competitivo tanto en tareas de aprendizaje de representaciones visuales como en generación de imágenes, manteniendo una eficiencia de tokens y velocidad de inferencia favorables. El código y el modelo estarán disponibles en https://apexgen-x.github.io/MergeVQ.
English
Masked Image Modeling (MIM) with Vector Quantization (VQ) has achieved great
success in both self-supervised pre-training and image generation. However,
most existing methods struggle to address the trade-off in shared latent space
for generation quality vs. representation learning and efficiency. To push the
limits of this paradigm, we propose MergeVQ, which incorporates token merging
techniques into VQ-based generative models to bridge the gap between image
generation and visual representation learning in a unified architecture. During
pre-training, MergeVQ decouples top-k semantics from latent space with the
token merge module after self-attention blocks in the encoder for subsequent
Look-up Free Quantization (LFQ) and global alignment and recovers their
fine-grained details through cross-attention in the decoder for reconstruction.
As for the second-stage generation, we introduce MergeAR, which performs KV
Cache compression for efficient raster-order prediction. Extensive experiments
on ImageNet verify that MergeVQ as an AR generative model achieves competitive
performance in both visual representation learning and image generation tasks
while maintaining favorable token efficiency and inference speed. The code and
model will be available at https://apexgen-x.github.io/MergeVQ.Summary
AI-Generated Summary