ChatPaper.aiChatPaper

VQRAE: Autoencoder a Quantizzazione delle Rappresentazioni per la Comprensione, Generazione e Ricostruzione Multimodale

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

November 28, 2025
Autori: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan
cs.AI

Abstract

L'unificazione della comprensione multimodale, della generazione e della rappresentazione della ricostruzione all'interno di un unico tokenizer rimane una sfida chiave nella costruzione di modelli unificati. La ricerca precedente ha tentato prevalentemente di affrontare questo problema nel paradigma del doppio encoder, ad esempio utilizzando encoder separati rispettivamente per la comprensione e la generazione, o bilanciando le rappresentazioni semantiche e le caratteristiche di basso livello con una loss contrastiva. In questo articolo, proponiamo VQRAE, una versione a Quantizzazione Vettoriale degli Autoencoder di Rappresentazione, che rappresenta la prima esplorazione pionieristica di una rappresentazione unificata per produrre *feature* semantiche continue per la comprensione delle immagini e token discreti per la generazione visiva all'interno di un tokenizer unificato. Nello specifico, partiamo da modelli fondazione visivi preaddestrati, aggiungendo un decoder ViT simmetrico e adottando una strategia di addestramento in due fasi: inizialmente, si congela l'encoder e si apprende un codebook VQ semantico ad alta dimensionalità con un obiettivo di ricostruzione pixel; successivamente, si ottimizza congiuntamente l'encoder con vincoli di auto-distillazione. Questo design consente di ottenere una perdita di informazione semantica trascurabile per mantenere l'abilità di comprensione multimodale, token discreti compatibili per la generazione e una ricostruzione fine dei dettagli. Inoltre, identifichiamo una proprietà intrigante nella quantizzazione di encoder semantici che si basano su un codebook ad alta dimensionalità, in contrasto con la comune pratica precedente di utilizzare codebook a bassa dimensionalità nella ricostruzione di immagini. Il codebook VQ semantico può raggiungere un tasso di utilizzo del 100% a una dimensione di 1536. VQRAE dimostra prestazioni competitive su diversi benchmark di comprensione, generazione e ricostruzione visiva, mostrando promettenti proprietà di scalabilità nel paradigma autoregressivo grazie ai suoi vantaggi discreti.
English
Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.
PDF101December 13, 2025