ResTok: 自己回帰的画像生成のための1次元視覚トークナイザーにおける階層的残差の学習
ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation
January 7, 2026
著者: Xu Zhang, Cheng Da, Huan Yang, Kun Gai, Ming Lu, Zhan Ma
cs.AI
要旨
既存の1次元視覚トークナイザーは、オート回帰的生成において、言語モデリングの設計原則をほぼ踏襲している。これらは言語に起源を持つトランスフォーマーを直接基盤として構築され、単一階層の潜在トークンを生成し、視覚データをフラットな逐次トークンストリームとして扱う。しかし、この言語に類似した定式化は、視覚の重要な特性、特に視覚モデルにおける収束と効率性に長らく不可欠であった階層的および残差ネットワーク設計を見過ごしている。視覚に「視覚性」を取り戻すため、本論文ではResidual Tokenizer(ResTok)を提案する。これは画像トークンと潜在トークンの両方に対して階層的な残差を構築する1次元視覚トークナイザーである。段階的なマージを通じて得られる階層的表現は、各層でクロスレベル特徴融合を可能にし、表現能力を大幅に強化する。一方、階層間の意味的残差は情報の重複を防ぎ、ARモデリングが容易な、より集中した潜在分布を生み出す。その結果、明示的な制約なしにクロスレベル結合が自然に発生する。生成プロセスを加速化するため、トークンを厳密に1つずつ生成するのではなく、潜在トークンの階層全体を一度に予測することでサンプリングステップを大幅に削減する階層的ARジェネレーターをさらに導入する。大規模な実験により、視覚トークン化において階層的残差の事前分布を復元することがAR画像生成を著しく改善し、僅か9サンプリングステップでImageNet-256においてgFID 2.34を達成することを実証した。コードはhttps://github.com/Kwai-Kolors/ResTok で公開されている。
English
Existing 1D visual tokenizers for autoregressive (AR) generation largely follow the design principles of language modeling, as they are built directly upon transformers whose priors originate in language, yielding single-hierarchy latent tokens and treating visual data as flat sequential token streams. However, this language-like formulation overlooks key properties of vision, particularly the hierarchical and residual network designs that have long been essential for convergence and efficiency in visual models. To bring "vision" back to vision, we propose the Residual Tokenizer (ResTok), a 1D visual tokenizer that builds hierarchical residuals for both image tokens and latent tokens. The hierarchical representations obtained through progressively merging enable cross-level feature fusion at each layer, substantially enhancing representational capacity. Meanwhile, the semantic residuals between hierarchies prevent information overlap, yielding more concentrated latent distributions that are easier for AR modeling. Cross-level bindings consequently emerge without any explicit constraints. To accelerate the generation process, we further introduce a hierarchical AR generator that substantially reduces sampling steps by predicting an entire level of latent tokens at once rather than generating them strictly token-by-token. Extensive experiments demonstrate that restoring hierarchical residual priors in visual tokenization significantly improves AR image generation, achieving a gFID of 2.34 on ImageNet-256 with only 9 sampling steps. Code is available at https://github.com/Kwai-Kolors/ResTok.