Ming-UniVision: Compreensão e Geração Conjunta de Imagens com um Tokenizador Unificado Contínuo
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
October 8, 2025
Autores: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou
cs.AI
Resumo
A tokenização visual continua sendo um desafio central na unificação da compreensão e geração visual dentro do paradigma autoregressivo. Os métodos existentes geralmente empregam tokenizadores em espaços latentes discretos para alinhar-se com os tokens de grandes modelos de linguagem, onde os erros de quantização podem limitar a expressividade semântica e degradar a capacidade de compreensão visão-linguagem. Para abordar isso, introduzimos o MingTok, uma nova família de tokenizadores visuais com um espaço latente contínuo, para geração e compreensão unificadas de forma autoregressiva. Enquanto tarefas de compreensão favorecem características discriminativas de alta dimensionalidade, tarefas de geração preferem códigos compactos de baixo nível. Assim, para conciliar essas demandas concorrentes, o MingTok adota uma arquitetura sequencial de três estágios envolvendo codificação de baixo nível, expansão semântica e reconstrução visual. Construído sobre isso, o Ming-UniVision elimina a necessidade de representações visuais específicas para cada tarefa e unifica diversas tarefas visão-linguagem sob um único paradigma de previsão autoregressiva. Ao formular tanto a compreensão quanto a geração como previsão do próximo token em um espaço contínuo compartilhado, ele suporta de forma contínua tarefas de múltiplas rodadas e em contexto, como compreensão iterativa, geração e edição. Empiricamente, descobrimos que o uso de uma representação visual contínua unificada concilia as demandas concorrentes impostas aos tokenizadores pelas tarefas de compreensão e geração, levando assim a um desempenho de ponta em ambos os domínios. Esperamos que nossas descobertas facilitem a tokenização visual unificada no domínio contínuo. O código de inferência e os pesos do modelo são disponibilizados para beneficiar a comunidade.
English
Visual tokenization remains a core challenge in unifying visual understanding
and generation within the autoregressive paradigm. Existing methods typically
employ tokenizers in discrete latent spaces to align with the tokens from large
language models, where the quantization errors can limit semantic
expressiveness and degrade the capability of vision-language understanding. To
address this, we introduce MingTok, a new family of visual tokenizers with a
continuous latent space, for unified autoregressive generation and
understanding. While understanding tasks favor discriminative high-dimensional
features, generation tasks prefer compact low-level codes. Thus, to reconcile
these competing demands, MingTok adopts a three-stage sequential architecture
involving low-level encoding, semantic expansion, and visual reconstruction.
Built on top of it, Ming-UniVision eliminates the need for task-specific visual
representations, and unifies diverse vision-language tasks under a single
autoregrsssive prediction paradigm. By formulating both understanding and
generation as next-token prediction in a shared continuous space, it seamlessly
supports multi-round, in-context tasks such as iterative understanding,
generation and editing. Empirically, we find that using a unified continuous
visual representation reconciles the competing requirements on the tokenizers
by the understanding and generation tasks, thereby leading to state-of-the-art
level performance across both domains. We hope our findings will facilitate
unified visual tokenization in the continuous domain. Inference code and model
weights are released to benefit community.