ChatPaper.aiChatPaper

VQRAE: 다중 모달 이해, 생성 및 재구성을 위한 표현 양자화 자동인코더

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

November 28, 2025
저자: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan
cs.AI

초록

단일 토크나이저 내에서 다중 모드 이해, 생성 및 재구성 표현을 통합하는 것은 통합 모델 구축의 핵심 과제로 남아 있습니다. 기존 연구는 주로 이중 인코더 패러다임에서 이 문제를 해결하려 시도해왔으며, 예를 들어 이해와 생성을 위해 각각 별도의 인코더를 활용하거나 대조 손실을 통해 의미 표현과 저수준 특징의 균형을 맞추는 방식이었습니다. 본 논문에서는 VQRAE(Vector Quantization version of Representation AutoEncoders)를 제안하며, 이는 통합 토크나이저 내에서 이미지 이해를 위한 연속적 의미 특징과 시각 생성을 위한 이산 토큰을 생성하는 통합 표현에 대한 최초의 탐구를 선도합니다. 구체적으로, 우리는 사전 학습된 비전 기초 모델을 기반으로 대칭적 ViT 디코더를 구성하고 2단계 학습 전략을 채택합니다: 첫째, 인코더를 고정하고 픽셀 재구성 목표로 고차원 의미 VQ 코드북을 학습하며; 둘째, 자기蒸馏 제약 조건과 함께 인코더를 공동 최적화합니다. 이 설계는 다중 모드 이해 능력 유지를 위해 의미 정보 손실을 무시할 수 있을 정도로 작게 하면서, 생성에 호환되는 이산 토큰과 세밀한 재구성을 가능하게 합니다. 또한, 우리는 이미지 재구성에서 일반적인 저차원 코드북 관행과 대조적으로, 의미 인코더 양자화에서 고차원 코드북에 의존해야 하는 흥미로운 특성을 확인했습니다. 1536 차원에서 의미 VQ 코드북은 100% 활용률을 달성할 수 있습니다. VQRAE는 시각 이해, 생성 및 재구성에 대한 여러 벤치마크에서 경쟁력 있는 성능을 보여주며, 이산적 장점으로 인해 자기회귀 패러다임에서 확장 가능성을 보입니다.
English
Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.
PDF101December 13, 2025