Поканальное векторное квантование

Аннотация

Мы представляем Channel-wise Vector Quantization (CVQ) — новую парадигму токенизации изображений, заменяющую по-патчевые токены на поканальные. В отличие от традиционного векторного квантования, которое присваивает дискретный токен каждому вектору признаков патча, CVQ квантует каждый канал карты признаков. Такая формулировка представляет изображение как дискретные уровни визуальных деталей, а не как сетку пространственных патчей. На основе CVQ мы представляем новую визуальную авторегрессионную структуру с «предсказанием следующего канала». Вместо рендеринга изображений патч за патчем в растровом порядке наша модель Channel-wise Autoregressive (CAR) предсказывает каналы изображения последовательно, создавая постепенно обогащаемые визуальные детали. В частности, она сначала набрасывает глобальную структуру, а затем уточняет мелкозернистые атрибуты, подобно работе художника. Эмпирически мы показываем, что: (1) CVQ достигает 100% использования кодовой книги при размере кодовой книги 16K+ без каких-либо дополнительных ухищрений и существенно улучшает качество реконструкции по сравнению с традиционным VQ; и (2) CAR достигает показателя DPG 86,7 и показателя GenEval 0,79, демонстрируя высокую эффективность для генерации текста в изображение.

English

We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventional vector quantization, which assigns a discrete token to each patch feature vector, CVQ quantizes each channel of the feature map. This formulation represents an image as discrete levels of visual details, rather than as a grid of spatial patches. Based on CVQ, we introduce a new visual autoregressive framework with "next-channel prediction". Instead of rendering images patch by patch in raster order, our Channel-wise Autoregressive (CAR) model predicts image channels sequentially, producing progressively enriched visual details. Specifically, it first sketches global structure and then refines fine-grained attributes, akin to a human artist's workflow. Empirically, we show that: (1) CVQ achieves 100% codebook utilization with a 16K+ codebook size without any bells and whistles, and substantially improves reconstruction quality over conventional VQ; and (2) CAR attains a DPG score of 86.7 and a GenEval score of 0.79, demonstrating strong effectiveness for text-to-image generation.