Ming-UniVision: Совместное понимание и генерация изображений с использованием унифицированного непрерывного токенизатора
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
October 8, 2025
Авторы: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou
cs.AI
Аннотация
Визуальная токенизация остается ключевой проблемой в объединении задач визуального понимания и генерации в рамках авторегрессивной парадигмы. Существующие методы обычно используют токенизаторы в дискретных латентных пространствах для согласования с токенами из крупных языковых моделей, где ошибки квантования могут ограничивать семантическую выразительность и ухудшать способность к пониманию визуально-языковых данных. Для решения этой проблемы мы представляем MingTok — новое семейство визуальных токенизаторов с непрерывным латентным пространством, предназначенное для унифицированной авторегрессивной генерации и понимания. В то время как задачи понимания требуют дискриминативных высокоразмерных признаков, задачи генерации предпочитают компактные низкоуровневые коды. Чтобы согласовать эти противоречивые требования, MingTok использует трехэтапную последовательную архитектуру, включающую низкоуровневое кодирование, семантическое расширение и визуальную реконструкцию. На основе этой архитектуры Ming-UniVision устраняет необходимость в специализированных визуальных представлениях для конкретных задач и объединяет разнообразные визуально-языковые задачи в рамках единой авторегрессивной парадигмы прогнозирования. Формулируя как понимание, так и генерацию как предсказание следующего токена в общем непрерывном пространстве, система легко поддерживает многозадачные, контекстно-зависимые задачи, такие как итеративное понимание, генерация и редактирование. Экспериментально мы обнаружили, что использование унифицированного непрерывного визуального представления согласует противоречивые требования к токенизаторам со стороны задач понимания и генерации, что приводит к достижению уровня современных достижений в обеих областях. Мы надеемся, что наши результаты будут способствовать развитию унифицированной визуальной токенизации в непрерывной области. Код для вывода и веса модели опубликованы для пользы сообщества.
English
Visual tokenization remains a core challenge in unifying visual understanding
and generation within the autoregressive paradigm. Existing methods typically
employ tokenizers in discrete latent spaces to align with the tokens from large
language models, where the quantization errors can limit semantic
expressiveness and degrade the capability of vision-language understanding. To
address this, we introduce MingTok, a new family of visual tokenizers with a
continuous latent space, for unified autoregressive generation and
understanding. While understanding tasks favor discriminative high-dimensional
features, generation tasks prefer compact low-level codes. Thus, to reconcile
these competing demands, MingTok adopts a three-stage sequential architecture
involving low-level encoding, semantic expansion, and visual reconstruction.
Built on top of it, Ming-UniVision eliminates the need for task-specific visual
representations, and unifies diverse vision-language tasks under a single
autoregrsssive prediction paradigm. By formulating both understanding and
generation as next-token prediction in a shared continuous space, it seamlessly
supports multi-round, in-context tasks such as iterative understanding,
generation and editing. Empirically, we find that using a unified continuous
visual representation reconciles the competing requirements on the tokenizers
by the understanding and generation tasks, thereby leading to state-of-the-art
level performance across both domains. We hope our findings will facilitate
unified visual tokenization in the continuous domain. Inference code and model
weights are released to benefit community.