MergeVQ: Un Marco Unificado para la Generación y Representación Visual con Fusión de Tokens Desenredada y Cuantización

Resumen

El Modelado de Imágenes Enmascaradas (MIM) con Cuantización Vectorial (VQ) ha logrado un gran éxito tanto en el preentrenamiento autosupervisado como en la generación de imágenes. Sin embargo, la mayoría de los métodos existentes tienen dificultades para abordar el equilibrio en el espacio latente compartido entre la calidad de generación y el aprendizaje de representaciones, así como la eficiencia. Para superar los límites de este paradigma, proponemos MergeVQ, que incorpora técnicas de fusión de tokens en modelos generativos basados en VQ para cerrar la brecha entre la generación de imágenes y el aprendizaje de representaciones visuales en una arquitectura unificada. Durante el preentrenamiento, MergeVQ desacopla la semántica top-k del espacio latente mediante el módulo de fusión de tokens después de los bloques de auto-atención en el codificador, para realizar posteriormente la Cuantización sin Búsqueda (LFQ) y la alineación global, y recupera los detalles finos a través de la atención cruzada en el decodificador para la reconstrucción. En cuanto a la generación en la segunda etapa, introducimos MergeAR, que realiza la compresión de la caché KV para una predicción eficiente en orden raster. Experimentos extensos en ImageNet verifican que MergeVQ, como modelo generativo AR, logra un rendimiento competitivo tanto en tareas de aprendizaje de representaciones visuales como en generación de imágenes, manteniendo una eficiencia de tokens y velocidad de inferencia favorables. El código y el modelo estarán disponibles en https://apexgen-x.github.io/MergeVQ.

English

Masked Image Modeling (MIM) with Vector Quantization (VQ) has achieved great success in both self-supervised pre-training and image generation. However, most existing methods struggle to address the trade-off in shared latent space for generation quality vs. representation learning and efficiency. To push the limits of this paradigm, we propose MergeVQ, which incorporates token merging techniques into VQ-based generative models to bridge the gap between image generation and visual representation learning in a unified architecture. During pre-training, MergeVQ decouples top-k semantics from latent space with the token merge module after self-attention blocks in the encoder for subsequent Look-up Free Quantization (LFQ) and global alignment and recovers their fine-grained details through cross-attention in the decoder for reconstruction. As for the second-stage generation, we introduce MergeAR, which performs KV Cache compression for efficient raster-order prediction. Extensive experiments on ImageNet verify that MergeVQ as an AR generative model achieves competitive performance in both visual representation learning and image generation tasks while maintaining favorable token efficiency and inference speed. The code and model will be available at https://apexgen-x.github.io/MergeVQ.

MergeVQ: Un Marco Unificado para la Generación y Representación Visual con Fusión de Tokens Desenredada y Cuantización

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Resumen

Support