VQRAE: Автокодировщики с векторной квантизацией для многомодального понимания, генерации и реконструкции
VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction
November 28, 2025
Авторы: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan
cs.AI
Аннотация
Объединение мультимодального понимания, генерации и реконструкции в рамках единого токенизатора остается ключевой проблемой при создании унифицированных моделей. Предыдущие исследования в основном пытались решить эту задачу в парадигме двойного кодировщика, например, используя раздельные энкодеры для понимания и генерации соответственно или балансируя семантические представления и низкоуровневые особенности с помощью контрастной функции потерь. В данной статье мы предлагаем VQRAE — версию автоэнкодеров представления с векторной квантизацией, которая впервые исследует унифицированное представление для получения непрерывных семантических признаков для понимания изображений и дискретных токенов для визуальной генерации в рамках единого токенизатора. В частности, мы используем предобученные базовые визуальные модели с симметричным ViT-декодером и применяем двухэтапную стратегию обучения: сначала замораживается энкодер и изучается высокоразмерный семантический VQ-кодбук с целью реконструкции пикселей; затем энкодер оптимизируется совместно с ограничениями самодистилляции. Такая конструкция обеспечивает пренебрежимо малую потерю семантической информации для сохранения способности мультимодального понимания, дискретные токены, совместимые с генерацией, и точную реконструкцию. Кроме того, мы выявили интересное свойство квантизации семантических энкодеров, требующих высокоразмерного кодбука, в отличие от предыдущей общепринятой практики использования низкоразмерных кодбуков в реконструкции изображений. Семантический VQ-кодбук может достигать 100% коэффициента использования при размерности 1536. VQRAE демонстрирует конкурентоспособные результаты на нескольких бенчмарках визуального понимания, генерации и реконструкции с многообещающими свойствами масштабирования в авторегрессионной парадигме благодаря своим дискретным преимуществам.
English
Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.