Cuantización Vectorial por Canal

Resumen

Presentamos Cuantización Vectorial por Canales (CVQ), un nuevo paradigma de tokenización de imágenes que reemplaza los tokens por parches con tokens por canales. A diferencia de la cuantización vectorial convencional, que asigna un token discreto a cada vector de características de un parche, CVQ cuantiza cada canal del mapa de características. Esta formulación representa una imagen como niveles discretos de detalles visuales, en lugar de como una cuadrícula de parches espaciales. Basándonos en CVQ, introducimos un nuevo marco autogresivo visual con "predicción del siguiente canal". En lugar de renderizar imágenes parche por parche en orden raster, nuestro modelo Autogresivo por Canales (CAR) predice los canales de la imagen secuencialmente, generando detalles visuales progresivamente más enriquecidos. Específicamente, primero esboza la estructura global y luego refina atributos de grano fino, similar al flujo de trabajo de un artista humano. Empíricamente, demostramos que: (1) CVQ logra una utilización del 100% del libro de códigos con un tamaño de libro de códigos de más de 16K sin necesidad de artificios adicionales, y mejora sustancialmente la calidad de reconstrucción en comparación con la VQ convencional; y (2) CAR alcanza una puntuación DPG de 86.7 y una puntuación GenEval de 0.79, demostrando una sólida efectividad para la generación de texto a imagen.

English

We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventional vector quantization, which assigns a discrete token to each patch feature vector, CVQ quantizes each channel of the feature map. This formulation represents an image as discrete levels of visual details, rather than as a grid of spatial patches. Based on CVQ, we introduce a new visual autoregressive framework with "next-channel prediction". Instead of rendering images patch by patch in raster order, our Channel-wise Autoregressive (CAR) model predicts image channels sequentially, producing progressively enriched visual details. Specifically, it first sketches global structure and then refines fine-grained attributes, akin to a human artist's workflow. Empirically, we show that: (1) CVQ achieves 100% codebook utilization with a 16K+ codebook size without any bells and whistles, and substantially improves reconstruction quality over conventional VQ; and (2) CAR attains a DPG score of 86.7 and a GenEval score of 0.79, demonstrating strong effectiveness for text-to-image generation.