ResTok: 자기회귀적 이미지 생성을 위한 1D 시각 토크나이저에서 계층적 잔차 학습
ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation
January 7, 2026
저자: Xu Zhang, Cheng Da, Huan Yang, Kun Gai, Ming Lu, Zhan Ma
cs.AI
초록
기존의 자기회귀(AR) 생성을 위한 1D 시각 토크나이저는 주로 언어 모델링의 설계 원칙을 따릅니다. 이들은 언어에서 비롯된 사전 지식을 가진 트랜스포머를 직접 기반으로 구축되어 단일 계층의 잠재 토큰을 생성하고 시각 데이터를 평평한 순차적 토큰 스트림으로 취급하기 때문입니다. 그러나 이러한 언어적 형식화는 시각의 핵심 속성, 특히 시각 모델에서 수렴과 효율성에 오랫동안 필수적이었던 계층적 및 잔차 네트워크 설계를 간과합니다. '시각'다운 특성을 시각 모델로 되돌리기 위해 우리는 계층적 잔차를 이미지 토큰과 잠재 토큰 모두에 대해 구축하는 1D 시각 토크나이저인 Residual Tokenizer(ResTok)를 제안합니다. 점진적 병합을 통해 얻어진 계층적 표현은 각 층에서 교차-수준 특징 융합을 가능하게 하여 표현 능력을 크게 향상시킵니다. 동시에 계층 간의 의미론적 잔차는 정보 중복을 방지하여 AR 모델링이 더 쉬운, 더 집중된 잠재 분포를 생성합니다. 그 결과 명시적인 제약 없이 교차-수준 결합이 자연스럽게 발생합니다. 생성 과정을 가속화하기 위해 우리는 토큰을 엄격하게 하나씩 생성하기보다 전체 수준의 잠재 토큰을 한 번에 예측하여 샘플링 단계를 상당히 줄이는 계층적 AR 생성기를 추가로 도입합니다. 광범위한 실험을 통해 시각 토크나이제이션에 계층적 잠차 사전 지식을 복원하면 AR 이미지 생성이 크게 개선되며, ImageNet-256에서 단 9개의 샘플링 단계로 gFID 2.34를 달성함을 입증했습니다. 코드는 https://github.com/Kwai-Kolors/ResTok에서 확인할 수 있습니다.
English
Existing 1D visual tokenizers for autoregressive (AR) generation largely follow the design principles of language modeling, as they are built directly upon transformers whose priors originate in language, yielding single-hierarchy latent tokens and treating visual data as flat sequential token streams. However, this language-like formulation overlooks key properties of vision, particularly the hierarchical and residual network designs that have long been essential for convergence and efficiency in visual models. To bring "vision" back to vision, we propose the Residual Tokenizer (ResTok), a 1D visual tokenizer that builds hierarchical residuals for both image tokens and latent tokens. The hierarchical representations obtained through progressively merging enable cross-level feature fusion at each layer, substantially enhancing representational capacity. Meanwhile, the semantic residuals between hierarchies prevent information overlap, yielding more concentrated latent distributions that are easier for AR modeling. Cross-level bindings consequently emerge without any explicit constraints. To accelerate the generation process, we further introduce a hierarchical AR generator that substantially reduces sampling steps by predicting an entire level of latent tokens at once rather than generating them strictly token-by-token. Extensive experiments demonstrate that restoring hierarchical residual priors in visual tokenization significantly improves AR image generation, achieving a gFID of 2.34 on ImageNet-256 with only 9 sampling steps. Code is available at https://github.com/Kwai-Kolors/ResTok.