VQRAE: Representatiekwantisatie-autoencoders voor multimodale interpretatie, generatie en reconstructie
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
November 28, 2025
Auteurs: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan
cs.AI
Samenvatting
Het verenigen van multimodale begrips-, generatie- en reconstructierepresentatie in een enkele tokenizer blijft een belangrijke uitdaging bij het bouwen van uniforme modellen. Voorafgaand onderzoek probeerde dit voornamelijk aan te pakken binnen een dual encoder-paradigma, bijvoorbeeld door gebruik te maken van respectievelijk aparte encoders voor begrip en generatie, of door semantische representaties en low-level kenmerken in evenwicht te brengen met contrastief verlies. In dit artikel stellen we VQRAE voor, een Vector Quantization-versie van Representation AutoEncoders, die de eerste verkenning op het gebied van uniforme representatie pionierst om continue semantische kenmerken voor beeldbegrip en discrete tokens voor visuele generatie te produceren binnen een uniforme tokenizer. Specifiek bouwen we voort op voorgetrainde vision foundation-modellen met een symmetrische ViT-decoder en hanteren we een tweefasige trainingsstrategie: eerst wordt de encoder bevroren en wordt een hoogdimensionaal semantisch VQ-codeboek aangeleerd met een pixelreconstructiedoelstelling; vervolgens wordt de encoder gezamenlijk geoptimaliseerd met zelfdistillatiebeperkingen. Dit ontwerp maakt verwaarloosbaar semantisch informatieverlies mogelijk om het vermogen voor multimodaal begrip te behouden, en produceert discrete tokens die compatibel zijn voor generatie en fijnmazige reconstructie. Daarnaast identificeren we de intrigerende eigenschap bij het kwantiseren van semantische encoders dat zij afhankelijk zijn van een hoogdimensionaal codeboek, in tegenstelling tot de eerdere gangbare praktijk van een laagdimensionaal codeboek bij beeldreconstructie. Het semantische VQ-codeboek kan een benuttingsgraad van 100% bereiken bij een dimensie van 1536. VQRAE vertoont competitieve prestaties op verschillende benchmarks voor visueel begrip, generatie en reconstructie, met veelbelovende schaaleigenschappen in het autoregressieve paradigma vanwege zijn discrete voordelen.
English
Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.