VQRAE : Autoencodeurs à quantification de représentation pour la compréhension, la génération et la reconstruction multimodales
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
November 28, 2025
papers.authors: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan
cs.AI
papers.abstract
L'unification de la représentation pour la compréhension multimodale, la génération et la reconstruction au sein d'un unique tokeniseur demeure un défi majeur dans la construction de modèles unifiés. Les recherches antérieures tentent principalement de résoudre ce problème dans un paradigme à double encodeur, par exemple en utilisant des encodeurs distincts pour la compréhension et la génération respectivement, ou en équilibrant les représentations sémantiques et les caractéristiques de bas niveau via une perte contrastive. Dans cet article, nous proposons VQRAE, une version à quantification vectorielle des autoencodeurs de représentation, qui représente la première exploration d'une représentation unifiée produisant des caractéristiques sémantiques continues pour la compréhension d'images et des jetons discrets pour la génération visuelle au sein d'un tokeniseur unifié. Plus précisément, nous nous appuyons sur des modèles de fondation visuelle pré-entraînés avec un décodeur ViT symétrique et adoptons une stratégie d'entraînement en deux étapes : premièrement, le modèle gèle l'encodeur et apprend un codebook sémantique de haute dimension par quantification vectorielle avec un objectif de reconstruction pixel ; ensuite, il optimise conjointement l'encodeur avec des contraintes d'auto-distillation. Cette conception permet de préserver les informations sémantiques de manière négligeable pour maintenir la capacité de compréhension multimodale, tout en produisant des jetons discrets compatibles avec la génération et la reconstruction fine. Par ailleurs, nous identifions une propriété intéressante lors de la quantification des encodeurs sémantiques, qui repose sur un codebook de haute dimension, contrairement à la pratique courante antérieure utilisant des codebooks de basse dimension pour la reconstruction d'images. Le codebook sémantique par quantification vectorielle peut atteindre un taux d'utilisation de 100% à une dimension de 1536. VQRAE démontre des performances compétitives sur plusieurs benchmarks de compréhension visuelle, de génération et de reconstruction, avec des propriétés d'extension prometteuses dans le paradigme autorégressif grâce à ses avantages discrets.
English
Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.