Kanalweise Vektorguantisierung

Zusammenfassung

Wir präsentieren Channel-Wise Vector Quantization (CVQ), ein neuartiges Paradigma zur Bildtokenisierung, das patch-basierte Token durch kanalbasierte Token ersetzt. Im Gegensatz zur herkömmlichen Vektorquantisierung, die jedem Patch-Feature-Vektor ein diskretes Token zuweist, quantisiert CVQ jeden Kanal der Feature-Map. Diese Formulierung stellt ein Bild als diskrete Ebenen visueller Details dar, nicht als Raster räumlicher Patches. Aufbauend auf CVQ führen wir ein neues visuelles autoregressives Framework mit „Next-Channel Prediction“ ein. Statt Bilder Patch für Patch in Rasterreihenfolge zu rendern, sagt unser kanalbasiertes autoregressives (CAR) Modell Bildkanäle sequenziell vorher und erzeugt so zunehmend reichere visuelle Details. Konkret skizziert es zunächst die globale Struktur und verfeinert dann feinkörnige Attribute, ähnlich der Arbeitsweise eines menschlichen Künstlers. Empirisch zeigen wir, dass: (1) CVQ eine Codebuchauslastung von 100 % bei einer Codebuchgröße von über 16.000 ohne zusätzliche Maßnahmen erreicht und die Rekonstruktionsqualität im Vergleich zur herkömmlichen VQ deutlich verbessert; und (2) CAR einen DPG-Wert von 86,7 und einen GenEval-Wert von 0,79 erreicht, was eine hohe Effektivität für die Text-zu-Bild-Generierung belegt.

English

We present Channel-wise Vector Quantization (CVQ), a novel image tokenization paradigm that replaces patch-wise tokens with channel-wise tokens. Unlike conventional vector quantization, which assigns a discrete token to each patch feature vector, CVQ quantizes each channel of the feature map. This formulation represents an image as discrete levels of visual details, rather than as a grid of spatial patches. Based on CVQ, we introduce a new visual autoregressive framework with "next-channel prediction". Instead of rendering images patch by patch in raster order, our Channel-wise Autoregressive (CAR) model predicts image channels sequentially, producing progressively enriched visual details. Specifically, it first sketches global structure and then refines fine-grained attributes, akin to a human artist's workflow. Empirically, we show that: (1) CVQ achieves 100% codebook utilization with a 16K+ codebook size without any bells and whistles, and substantially improves reconstruction quality over conventional VQ; and (2) CAR attains a DPG score of 86.7 and a GenEval score of 0.79, demonstrating strong effectiveness for text-to-image generation.