VQRAE: Autoencoders de Cuantificación de Representaciones para la Comprensión, Generación y Reconstrucción Multimodal
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
November 28, 2025
Autores: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan
cs.AI
Resumen
Unificar la representación multimodal de comprensión, generación y reconstrucción en un único tokenizador sigue siendo un desafío clave en la construcción de modelos unificados. Investigaciones previas han intentado abordar esto predominantemente bajo un paradigma de codificador dual, por ejemplo, utilizando codificadores separados para comprensión y generación respectivamente, o equilibrando representaciones semánticas y características de bajo nivel mediante pérdida contrastiva. En este artículo, proponemos VQRAE, una versión de Cuantización Vectorial de los AutoCodificadores de Representación, que pioneramente explora por primera vez una representación unificada para producir características semánticas continuas para comprensión de imágenes y tokens discretos para generación visual dentro de un tokenizador unificado. Específicamente, partimos de modelos de visión base preentrenados con un decodificador ViT simétrico y adoptamos una estrategia de entrenamiento en dos etapas: primero, se congela el codificador y se aprende un libro de códigos VQ semántico de alta dimensión con un objetivo de reconstrucción de píxeles; luego se optimiza conjuntamente el codificador con restricciones de auto-distilación. Este diseño permite obtener información semántica mínima para mantener la capacidad de comprensión multimodal, tokens discretos compatibles para generación y reconstrucción de grano fino. Además, identificamos una propiedad intrigante en la cuantización de codificadores semánticos que dependen de un libro de códigos de alta dimensión, en contraste con la práctica común previa de libros de códigos de baja dimensión en reconstrucción de imágenes. El libro de códigos VQ semántico puede alcanzar una tasa de utilización del 100% en una dimensión de 1536. VQRAE presenta un rendimiento competitivo en varios benchmarks de comprensión visual, generación y reconstrucción, con prometedoras propiedades de escalado en el paradigma autoregresivo gracias a sus ventajas discretas.
English
Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.