ChatPaper.aiChatPaper

네이티브톡: 향상된 이미지 생성을 위한 네이티브 시각적 토큰화

NativeTok: Native Visual Tokenization for Improved Image Generation

January 30, 2026
저자: Bin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao
cs.AI

초록

VQ 기반 이미지 생성은 일반적으로 두 단계 파이프라인을 따릅니다: 토크나이저가 이미지를 이산 토큰으로 인코딩하고, 생성 모델이 재구성을 위해 토큰 간 의존성을 학습합니다. 그러나 기존 방식은 토큰 의존성을 제약하지 못하기 때문에, 첫 번째 단계에서 토큰화 성능이 향상되어도 두 번째 단계 생성 성능이 반드시 개선되지는 않습니다. 이러한 불일치로 인해 생성 모델이 정렬되지 않은 분포로부터 학습해야 하며, 이는 편향과 약한 일관성으로 이어집니다. 이를 해결하기 위해 우리는 토큰화 과정에 인과적 의존성을 강제하는 네이티브 시각 토큰화를 제안합니다. 이 아이디어를 바탕으로 토큰 시퀀스 내에 관계적 제약을 내재화하면서 효율적인 재구성을 달성하는 NativeTok 프레임워크를 소개합니다. NativeTok은 (1) 잠재 이미지 모델링을 위한 메타 이미지 변환기(MIT)와 (2) 각 경량 전문가 블록이 이전 토큰과 잠재 특징에 조건화되어 단일 토큰을 생성하는 인과적 전문가 혼합 변환기(MoCET)로 구성됩니다. 또한 새로운 전문가 블록만을 업데이트하여 학습 효율성을 보장하는 계층적 네이티브 학습 전략을 설계합니다. 폭넓은 실험을 통해 NativeTok의 효과성을 입증합니다.
English
VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.
PDF92February 3, 2026