Quantização Vetorial por Canal

Resumo

Apresentamos a Quantização Vetorial por Canal (CVQ), um novo paradigma de tokenização de imagens que substitui tokens por patch por tokens por canal. Diferentemente da quantização vetorial convencional, que atribui um token discreto a cada vetor de características de patch, a CVQ quantiza cada canal do mapa de características. Essa formulação representa uma imagem como níveis discretos de detalhes visuais, em vez de uma grade de patches espaciais. Com base na CVQ, introduzimos um novo framework autoregressivo visual com "predição do próximo canal". Em vez de renderizar imagens patch por patch em ordem raster, nosso modelo Autoregressivo por Canal (CAR) prediz canais de imagem sequencialmente, produzindo detalhes visuais progressivamente enriquecidos. Especificamente, ele primeiro esboça a estrutura global e depois refina atributos de granularidade fina, semelhante ao fluxo de trabalho de um artista humano. Empiricamente, mostramos que: (1) a CVQ alcança 100% de utilização do codebook com um tamanho de codebook de 16K+ sem nenhum artifício adicional, e melhora substancialmente a qualidade da reconstrução em relação à VQ convencional; e (2) o CAR atinge uma pontuação DPG de 86,7 e uma pontuação GenEval de 0,79, demonstrando forte eficácia para geração de texto para imagem.

English

We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventional vector quantization, which assigns a discrete token to each patch feature vector, CVQ quantizes each channel of the feature map. This formulation represents an image as discrete levels of visual details, rather than as a grid of spatial patches. Based on CVQ, we introduce a new visual autoregressive framework with "next-channel prediction". Instead of rendering images patch by patch in raster order, our Channel-wise Autoregressive (CAR) model predicts image channels sequentially, producing progressively enriched visual details. Specifically, it first sketches global structure and then refines fine-grained attributes, akin to a human artist's workflow. Empirically, we show that: (1) CVQ achieves 100% codebook utilization with a 16K+ codebook size without any bells and whistles, and substantially improves reconstruction quality over conventional VQ; and (2) CAR attains a DPG score of 86.7 and a GenEval score of 0.79, demonstrating strong effectiveness for text-to-image generation.