VQRAE: Repräsentations-Quantisierungs-Autoencoder für multimodales Verständnis, Erzeugung und Rekonstruktion
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
November 28, 2025
papers.authors: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan
cs.AI
papers.abstract
Die Vereinheitlichung multimodaler Verständnis-, Generierungs- und Rekonstruktionsrepräsentationen in einem einzigen Tokenizer bleibt eine zentrale Herausforderung beim Aufbau einheitlicher Modelle. Bisherige Forschung versucht dies überwiegend im Paradigma dualer Encoder zu lösen, beispielsweise durch die Verwendung separater Encoder für Verständnis und Generierung oder durch Abwägung semantischer Repräsentationen und Low-Level-Merkmale mit Contrastive Loss. In dieser Arbeit stellen wir VQRAE vor, eine Vector-Quantization-Version von Representation AutoEncoders, die erstmals eine vereinheitlichte Repräsentation erforscht, um innerhalb eines einzigen Tokenizers kontinuierliche semantische Merkmale für Bildverständnis und diskrete Tokens für visuelle Generierung zu erzeugen. Konkret bauen wir auf vortrainierten visuellen Foundation-Modellen mit einem symmetrischen ViT-Decoder auf und verwenden eine zweistufige Trainingsstrategie: Zunächst wird der Encoder eingefroren und ein hochdimensionales semantisches VQ-Codebuch mit Pixelrekonstruktionsziel erlernt; anschließend wird der Encoder gemeinsam mit Self-Distillation-Constraints optimiert. Dieser Aufbau ermöglicht vernachlässigbare semantische Informationsverluste zur Aufrechterhaltung der multimodalen Verständnisfähigkeit, diskrete Tokens, die für die Generierung kompatibel sind, und feinkörnige Rekonstruktion. Zudem identifizieren wir eine interessante Eigenschaft bei der Quantisierung semantischer Encoder: Diese erfordern im Gegensatz zur bisherigen Praxis niedrigdimensionaler Codebücher in der Bildrekonstruktion hochdimensionale Codebücher. Das semantische VQ-Codebuch kann bei einer Dimension von 1536 eine Nutzungsrate von 100 % erreichen. VQRAE erzielt wettbewerbsfähige Leistungen in mehreren Benchmarks für visuelles Verständnis, Generierung und Rekonstruktion und zeigt vielversprechende Skalierungseigenschaften im autoregressiven Paradigma aufgrund seiner diskreten Vorteile.
English
Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.