ChatPaper.aiChatPaper

NativeTok: Нативная визуальная токенизация для улучшения генерации изображений

NativeTok: Native Visual Tokenization for Improved Image Generation

January 30, 2026
Авторы: Bin Wu, Mengqi Huang, Weinan Jia, Zhendong Mao
cs.AI

Аннотация

Генерация изображений на основе векторного квантования (VQ) обычно реализуется по двухэтапной схеме: токенизатор кодирует изображения в дискретные токены, а генеративная модель изучает их взаимозависимости для реконструкции. Однако улучшение токенизации на первом этапе не обязательно повышает качество генерации на втором этапе, поскольку существующие методы не накладывают ограничений на зависимости между токенами. Это несоответствие заставляет генеративную модель обучаться на неупорядоченных распределениях, что приводит к смещениям и слабой связности. Для решения этой проблемы мы предлагаем метод нативной визуальной токенизации, который обеспечивает причинно-следственные зависимости в процессе токенизации. На основе этой идеи мы представляем NativeTok — фреймворк, достигающий эффективной реконструкции при внедрении реляционных ограничений в последовательности токенов. NativeTok состоит из: (1) Meta Image Transformer (MIT) для моделирования латентных представлений изображений и (2) Mixture of Causal Expert Transformer (MoCET), в котором каждый облегченный экспертный блок генерирует отдельный токен с учетом предыдущих токенов и латентных признаков. Мы также разработали иерархическую стратегию нативного обучения, которая обновляет только новые экспертные блоки, обеспечивая эффективность обучения. Многочисленные эксперименты подтверждают эффективность NativeTok.
English
VQ-based image generation typically follows a two-stage pipeline: a tokenizer encodes images into discrete tokens, and a generative model learns their dependencies for reconstruction. However, improved tokenization in the first stage does not necessarily enhance the second-stage generation, as existing methods fail to constrain token dependencies. This mismatch forces the generative model to learn from unordered distributions, leading to bias and weak coherence. To address this, we propose native visual tokenization, which enforces causal dependencies during tokenization. Building on this idea, we introduce NativeTok, a framework that achieves efficient reconstruction while embedding relational constraints within token sequences. NativeTok consists of: (1) a Meta Image Transformer (MIT) for latent image modeling, and (2) a Mixture of Causal Expert Transformer (MoCET), where each lightweight expert block generates a single token conditioned on prior tokens and latent features. We further design a Hierarchical Native Training strategy that updates only new expert blocks, ensuring training efficiency. Extensive experiments demonstrate the effectiveness of NativeTok.
PDF92February 3, 2026