MergeVQ: Un Marco Unificado para la Generación y Representación Visual con Fusión de Tokens Desenredada y CuantizaciónMergeVQ: A Unified Framework for Visual Generation and Representation
with Disentangled Token Merging and Quantization
El Modelado de Imágenes Enmascaradas (MIM) con Cuantización Vectorial (VQ) ha logrado un gran éxito tanto en el preentrenamiento autosupervisado como en la generación de imágenes. Sin embargo, la mayoría de los métodos existentes tienen dificultades para abordar el equilibrio en el espacio latente compartido entre la calidad de generación y el aprendizaje de representaciones, así como la eficiencia. Para superar los límites de este paradigma, proponemos MergeVQ, que incorpora técnicas de fusión de tokens en modelos generativos basados en VQ para cerrar la brecha entre la generación de imágenes y el aprendizaje de representaciones visuales en una arquitectura unificada. Durante el preentrenamiento, MergeVQ desacopla la semántica top-k del espacio latente mediante el módulo de fusión de tokens después de los bloques de auto-atención en el codificador, para realizar posteriormente la Cuantización sin Búsqueda (LFQ) y la alineación global, y recupera los detalles finos a través de la atención cruzada en el decodificador para la reconstrucción. En cuanto a la generación en la segunda etapa, introducimos MergeAR, que realiza la compresión de la caché KV para una predicción eficiente en orden raster. Experimentos extensos en ImageNet verifican que MergeVQ, como modelo generativo AR, logra un rendimiento competitivo tanto en tareas de aprendizaje de representaciones visuales como en generación de imágenes, manteniendo una eficiencia de tokens y velocidad de inferencia favorables. El código y el modelo estarán disponibles en https://apexgen-x.github.io/MergeVQ.