ResTok: Apprendimento di Residui Gerarchici nei Tokenizzatori Visivi 1D per la Generazione Autoregressiva di Immagini

Abstract

I tokenizzatori visivi 1D esistenti per la generazione autoregressiva (AR) seguono in gran parte i principi di progettazione del language modeling, poiché sono costruiti direttamente su transformer i cui prior originano dal linguaggio, producendo token latenti a gerarchia singola e trattando i dati visivi come flussi sequenziali piatti di token. Tuttavia, questa formulazione simile al linguaggio trascura proprietà chiave della visione, in particolare i progetti di rete gerarchici e residui che sono stati a lungo essenziali per la convergenza e l'efficienza nei modelli visivi. Per riportare la "visione" nella visione, proponiamo il Residual Tokenizer (ResTok), un tokenizzatore visivo 1D che costruisce residui gerarchici sia per i token immagine che per i token latenti. Le rappresentazioni gerarchiche ottenute attraverso fusioni progressive consentono la fusione di caratteristiche cross-level ad ogni layer, migliorando sostanzialmente la capacità rappresentativa. Nel frattempo, i residui semantici tra le gerarchie prevengono la sovrapposizione di informazioni, producendo distribuzioni latenti più concentrate che sono più facili da modellare con l'AR. Di conseguenza, emergono legami cross-level senza alcun vincolo esplicito. Per accelerare il processo di generazione, introduciamo inoltre un generatore AR gerarchico che riduce sostanzialmente i passi di campionamento prevedendo un intero livello di token latenti in una volta sola, anziché generarli rigorosamente token per token. Esperimenti estesi dimostrano che il ripristino di prior residui gerarchici nella tokenizzazione visiva migliora significativamente la generazione di immagini AR, raggiungendo un gFID di 2.34 su ImageNet-256 con soli 9 passi di campionamento. Il codice è disponibile all'indirizzo https://github.com/Kwai-Kolors/ResTok.

English

Existing 1D visual tokenizers for autoregressive (AR) generation largely follow the design principles of language modeling, as they are built directly upon transformers whose priors originate in language, yielding single-hierarchy latent tokens and treating visual data as flat sequential token streams. However, this language-like formulation overlooks key properties of vision, particularly the hierarchical and residual network designs that have long been essential for convergence and efficiency in visual models. To bring "vision" back to vision, we propose the Residual Tokenizer (ResTok), a 1D visual tokenizer that builds hierarchical residuals for both image tokens and latent tokens. The hierarchical representations obtained through progressively merging enable cross-level feature fusion at each layer, substantially enhancing representational capacity. Meanwhile, the semantic residuals between hierarchies prevent information overlap, yielding more concentrated latent distributions that are easier for AR modeling. Cross-level bindings consequently emerge without any explicit constraints. To accelerate the generation process, we further introduce a hierarchical AR generator that substantially reduces sampling steps by predicting an entire level of latent tokens at once rather than generating them strictly token-by-token. Extensive experiments demonstrate that restoring hierarchical residual priors in visual tokenization significantly improves AR image generation, achieving a gFID of 2.34 on ImageNet-256 with only 9 sampling steps. Code is available at https://github.com/Kwai-Kolors/ResTok.

ResTok: Apprendimento di Residui Gerarchici nei Tokenizzatori Visivi 1D per la Generazione Autoregressiva di Immagini

ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation

Abstract

Support