Kanaalsgewijze vectorquantisatie

Samenvatting

We presenteren Kanaalgewijze Vectorkwantisering (CVQ), een nieuwe beeldtokenisatieparadigma dat patchgewijze tokens vervangt door kanaalgewijze tokens. In tegenstelling tot conventionele vectorkwantisering, die een discreet token toewijst aan elke patchkenmerkvector, kwantiseert CVQ elk kanaal van de kenmerkenkaart. Deze formulering stelt een beeld voor als discrete niveaus van visuele details, in plaats van als een grid van ruimtelijke patches. Op basis van CVQ introduceren we een nieuw visueel autoregressief raamwerk met "volgende-kanaalvoorspelling". In plaats van beelden patch voor patch in rastervolgorde weer te geven, voorspelt ons Kanaalgewijze Autoregressieve (CAR) model opeenvolgend de kanalen, wat leidt tot progressief verrijkte visuele details. Specifiek schetst het eerst de globale structuur en verfijnt het daarna de fijnmazige attributen, vergelijkbaar met de werkwijze van een menselijke kunstenaar. Empirisch tonen we aan dat: (1) CVQ een 100% codeboekgebruik bereikt met een codeboekgrootte van 16K+ zonder enige extra trucs, en de reconstructiekwaliteit aanzienlijk verbetert ten opzichte van conventionele VQ; en (2) CAR een DPG-score van 86,7 en een GenEval-score van 0,79 behaalt, wat de sterke effectiviteit voor tekst-naar-beeld generatie aantoont.

English

We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventional vector quantization, which assigns a discrete token to each patch feature vector, CVQ quantizes each channel of the feature map. This formulation represents an image as discrete levels of visual details, rather than as a grid of spatial patches. Based on CVQ, we introduce a new visual autoregressive framework with "next-channel prediction". Instead of rendering images patch by patch in raster order, our Channel-wise Autoregressive (CAR) model predicts image channels sequentially, producing progressively enriched visual details. Specifically, it first sketches global structure and then refines fine-grained attributes, akin to a human artist's workflow. Empirically, we show that: (1) CVQ achieves 100% codebook utilization with a 16K+ codebook size without any bells and whistles, and substantially improves reconstruction quality over conventional VQ; and (2) CAR attains a DPG score of 86.7 and a GenEval score of 0.79, demonstrating strong effectiveness for text-to-image generation.