ResTok: Lernen hierarchischer Residuen in 1D-Visual-Tokenizern für autoregressive Bildgenerierung
ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation
January 7, 2026
papers.authors: Xu Zhang, Cheng Da, Huan Yang, Kun Gai, Ming Lu, Zhan Ma
cs.AI
papers.abstract
Bestehende 1D-visuelle Tokenizer für autoregressive (AR) Generierung folgen weitgehend den Designprinzipien der Sprachmodellierung, da sie direkt auf Transformern aufbauen, deren Priors aus der Sprachverarbeitung stammen. Dies führt zu latenten Tokens mit nur einer Hierarchieebene und behandelt visuelle Daten als flache sequentielle Token-Ströme. Diese sprachähnliche Formulierung übersieht jedoch Schlüsseleigenschaften der Vision, insbesondere hierarchische und Residual-Netzwerk-Designs, die seit langem für Konvergenz und Effizienz in visuellen Modellen entscheidend sind. Um die "Vision" zurück in die Vision zu bringen, schlagen wir den Residual Tokenizer (ResTok) vor, einen 1D-visuellen Tokenizer, der hierarchische Residuen sowohl für Bild-Tokens als auch für latente Tokens erzeugt. Die durch progressives Zusammenführen gewonnenen hierarchischen Repräsentationen ermöglichen eine featureübergreifende Fusion auf jeder Ebene, was die Repräsentationskapazität erheblich steigert. Gleichzeitig verhindern die semantischen Residuen zwischen den Hierarchieebenen Informationsüberlappungen und erzeugen konzentriertere latente Verteilungen, die sich leichter für AR-Modellierung eignen. Daraus ergeben sich ohne explizite Zwangsbedingungen cross-level Bindungen. Um den Generierungsprozess zu beschleunigen, führen wir weiterhin einen hierarchischen AR-Generator ein, der die Abtastschritte erheblich reduziert, indem er eine gesamte Ebene latenter Tokens auf einmal vorhersagt, anstatt sie streng tokenweise zu generieren. Umfangreiche Experimente belegen, dass die Wiederherstellung hierarchischer Residual-Priors in der visuellen Tokenisierung die AR-Bildgenerierung signifikant verbessert und einen gFID von 2,34 auf ImageNet-256 mit nur 9 Abtastschritten erreicht. Code ist verfügbar unter https://github.com/Kwai-Kolors/ResTok.
English
Existing 1D visual tokenizers for autoregressive (AR) generation largely follow the design principles of language modeling, as they are built directly upon transformers whose priors originate in language, yielding single-hierarchy latent tokens and treating visual data as flat sequential token streams. However, this language-like formulation overlooks key properties of vision, particularly the hierarchical and residual network designs that have long been essential for convergence and efficiency in visual models. To bring "vision" back to vision, we propose the Residual Tokenizer (ResTok), a 1D visual tokenizer that builds hierarchical residuals for both image tokens and latent tokens. The hierarchical representations obtained through progressively merging enable cross-level feature fusion at each layer, substantially enhancing representational capacity. Meanwhile, the semantic residuals between hierarchies prevent information overlap, yielding more concentrated latent distributions that are easier for AR modeling. Cross-level bindings consequently emerge without any explicit constraints. To accelerate the generation process, we further introduce a hierarchical AR generator that substantially reduces sampling steps by predicting an entire level of latent tokens at once rather than generating them strictly token-by-token. Extensive experiments demonstrate that restoring hierarchical residual priors in visual tokenization significantly improves AR image generation, achieving a gFID of 2.34 on ImageNet-256 with only 9 sampling steps. Code is available at https://github.com/Kwai-Kolors/ResTok.