ChatPaper.aiChatPaper

NativeTok: 高品質な画像生成のための視覚的ネイティブトークナイゼーション

NativeTok: Native Visual Tokenization for Improved Image Generation

January 30, 2026
著者: Bin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao
cs.AI

要旨

VQベースの画像生成は通常、2段階のパイプラインに従う:トークナイザが画像を離散トークンに符号化し、生成モデルがその依存関係を学習して再構築を行う。しかし、第1段階のトークン化が改善されても、既存手法ではトークン間の依存関係に制約を課せないため、第2段階の生成性能が必ずしも向上するわけではない。この不整合により、生成モデルは順序付けられていない分布から学習を強いられ、バイアスや一貫性の弱さを招く。この問題に対処するため、我々はトークン化段階で因果的依存関係を強制する**Native Visual Tokenization**を提案する。この考え方に基づき、トークン列に関係性制約を埋め込みながら効率的な再構築を実現するフレームワーク**NativeTok**を導入する。NativeTokは以下で構成される:(1) 潜在画像モデリングのためのMeta Image Transformer (MIT)、(2) 各軽量エキスパートブロックが先行トークンと潜在特徴を条件として単一トークンを生成するMixture of Causal Expert Transformer (MoCET)。さらに、新規エキスパートブロックのみを更新する階層的ネイティブ学習戦略を設計し、学習効率を確保する。大規模な実験により、NativeTokの有効性を実証する。
English
VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.
PDF92February 3, 2026