MergeVQ: Um Framework Unificado para Geração e Representação Visual com Fusão e Quantização de Tokens DesacopladosMergeVQ: A Unified Framework for Visual Generation and Representation
with Disentangled Token Merging and Quantization
A Modelagem de Imagem Mascarada (MIM) com Quantização Vetorial (VQ) tem alcançado grande sucesso tanto no pré-treinamento auto-supervisionado quanto na geração de imagens. No entanto, a maioria dos métodos existentes enfrenta dificuldades para equilibrar a qualidade de geração versus o aprendizado de representação e a eficiência em um espaço latente compartilhado. Para superar os limites desse paradigma, propomos o MergeVQ, que incorpora técnicas de fusão de tokens em modelos generativos baseados em VQ para preencher a lacuna entre a geração de imagens e o aprendizado de representação visual em uma arquitetura unificada. Durante o pré-treinamento, o MergeVQ desacopla a semântica top-k do espaço latente com o módulo de fusão de tokens após os blocos de auto-atenção no codificador, permitindo a Quantização Livre de Consulta (LFQ) e o alinhamento global, e recupera os detalhes refinados por meio de atenção cruzada no decodificador para reconstrução. Para a geração na segunda etapa, introduzimos o MergeAR, que realiza a compressão do Cache KV para previsão eficiente em ordem raster. Experimentos extensivos no ImageNet comprovam que o MergeVQ, como modelo generativo AR, alcança desempenho competitivo tanto em tarefas de aprendizado de representação visual quanto na geração de imagens, mantendo uma eficiência de tokens e velocidade de inferência favoráveis. O código e o modelo estarão disponíveis em https://apexgen-x.github.io/MergeVQ.