VQRAE: Autoencoders de Quantização de Representação para Compreensão, Geração e Reconstrução Multimodal

Resumo

A unificação da compreensão multimodal, geração e representação de reconstrução em um único tokenizador permanece um desafio fundamental na construção de modelos unificados. Pesquisas anteriores tentam abordar isso predominantemente em um paradigma de codificador duplo, por exemplo, utilizando codificadores separados para compreensão e geração, respectivamente, ou equilibrando representações semânticas e características de baixo nível com perda contrastiva. Neste artigo, propomos o VQRAE, uma versão de Quantização Vetorial dos AutoCodificadores de Representação, que pioneiramente explora a representação unificada para produzir características semânticas contínuas para compreensão de imagem e tokens discretos para geração visual dentro de um tokenizador unificado. Especificamente, construímos nosso modelo sobre modelos de base visuais pré-treinados com um decodificador ViT simétrico e adotamos uma estratégia de treinamento em dois estágios: primeiro, congela-se o codificador e aprende-se um codebook semântico VQ de alta dimensão com objetivo de reconstrução de pixels; depois, otimiza-se conjuntamente o codificador com restrições de auto-distilação. Este projeto permite informação semântica negligenciável para manter a capacidade de compreensão multimodal, tokens discretos que são compatíveis para geração e reconstrução de granularidade fina. Além disso, identificamos a propriedade intrigante na quantização de codificadores semânticos que dependem de um codebook de alta dimensão, em contraste com a prática comum anterior de codebook de baixa dimensão na reconstrução de imagens. O codebook semântico VQ pode alcançar uma taxa de utilização de 100% em uma dimensão de 1536. O VQRAE apresenta desempenho competitivo em diversos benchmarks de compreensão visual, geração e reconstrução, com propriedades promissoras de escalabilidade no paradigma autoregressivo devido aos seus méritos discretos.

English

Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.

VQRAE: Autoencoders de Quantização de Representação para Compreensão, Geração e Reconstrução Multimodal

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

Resumo

Support