NativeTok: Natieve Visuele Tokenisatie voor Verbeterde Beeldgeneratie

Samenvatting

Op VQ gebaseerde beeldgeneratie volgt doorgaans een tweestappenpijplijn: een tokenizer codeert beelden om in discrete tokens, en een generatief model leert hun onderlinge afhankelijkheden voor reconstructie. Verbeterde tokenisatie in de eerste fase leidt echter niet noodzakelijk tot betere generatie in de tweede fase, omdat bestaande methoden de tokenafhankelijkheden niet kunnen afdwingen. Deze mismatch dwingt het generatieve model te leren uit ongeordende verdelingen, wat leidt tot vertekening en zwakke samenhang. Om dit op te lossen, stellen we native visuele tokenisatie voor, die causale afhankelijkheden afdwingt tijdens de tokenisatie. Voortbouwend op dit idee introduceren we NativeTok, een raamwerk dat efficiënte reconstructie bereikt terwijl het relationele beperkingen inbedt in tokenreeksen. NativeTok bestaat uit: (1) een Meta Image Transformer (MIT) voor latente beeldmodellering, en (2) een Mixture of Causal Expert Transformer (MoCET), waarbij elk lichtgewicht expertblok één token genereert op basis van voorgaande tokens en latente kenmerken. We ontwerpen verder een Hiërarchische Native Trainingsstrategie die alleen nieuwe expertblokken bijwerkt, wat de trainings efficiëntie garandeert. Uitgebreide experimenten tonen de effectiviteit van NativeTok aan.

English

VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.

NativeTok: Natieve Visuele Tokenisatie voor Verbeterde Beeldgeneratie

NativeTok: Native Visual Tokenization for Improved Image Generation

Samenvatting

Support