ChatPaper.aiChatPaper

VQRAE: Автокодировщики с векторной квантизацией для многомодального понимания, генерации и реконструкции

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

November 28, 2025
Авторы: Sinan Du, Jiahao Guo, Bo Li, Shuhao Cui, Zhengzhuo Xu, Yifu Luo, Yongxian Wei, Kun Gai, Xinggang Wang, Kai Wu, Chun Yuan
cs.AI

Аннотация

Объединение мультимодального понимания, генерации и реконструкции в рамках единого токенизатора остается ключевой проблемой при создании унифицированных моделей. Предыдущие исследования в основном пытались решить эту задачу в парадигме двойного кодировщика, например, используя раздельные энкодеры для понимания и генерации соответственно или балансируя семантические представления и низкоуровневые особенности с помощью контрастной функции потерь. В данной статье мы предлагаем VQRAE — версию автоэнкодеров представления с векторной квантизацией, которая впервые исследует унифицированное представление для получения непрерывных семантических признаков для понимания изображений и дискретных токенов для визуальной генерации в рамках единого токенизатора. В частности, мы используем предобученные базовые визуальные модели с симметричным ViT-декодером и применяем двухэтапную стратегию обучения: сначала замораживается энкодер и изучается высокоразмерный семантический VQ-кодбук с целью реконструкции пикселей; затем энкодер оптимизируется совместно с ограничениями самодистилляции. Такая конструкция обеспечивает пренебрежимо малую потерю семантической информации для сохранения способности мультимодального понимания, дискретные токены, совместимые с генерацией, и точную реконструкцию. Кроме того, мы выявили интересное свойство квантизации семантических энкодеров, требующих высокоразмерного кодбука, в отличие от предыдущей общепринятой практики использования низкоразмерных кодбуков в реконструкции изображений. Семантический VQ-кодбук может достигать 100% коэффициента использования при размерности 1536. VQRAE демонстрирует конкурентоспособные результаты на нескольких бенчмарках визуального понимания, генерации и реконструкции с многообещающими свойствами масштабирования в авторегрессионной парадигме благодаря своим дискретным преимуществам.
English
Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.
PDF101December 13, 2025