Ming-UniVision: Comprensión y Generación Conjunta de Imágenes con un Tokenizador Unificado Continuo
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
October 8, 2025
Autores: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou
cs.AI
Resumen
La tokenización visual sigue siendo un desafío fundamental para unificar la comprensión y generación visual dentro del paradigma autoregresivo. Los métodos existentes suelen emplear tokenizadores en espacios latentes discretos para alinearse con los tokens de los modelos de lenguaje grandes, donde los errores de cuantificación pueden limitar la expresividad semántica y degradar la capacidad de comprensión visión-lenguaje. Para abordar esto, presentamos MingTok, una nueva familia de tokenizadores visuales con un espacio latente continuo, diseñada para la generación y comprensión unificadas en un marco autoregresivo. Mientras que las tareas de comprensión favorecen características discriminativas de alta dimensionalidad, las tareas de generación prefieren códigos compactos de bajo nivel. Por lo tanto, para reconciliar estas demandas contrapuestas, MingTok adopta una arquitectura secuencial de tres etapas que incluye codificación de bajo nivel, expansión semántica y reconstrucción visual. Basado en esto, Ming-UniVision elimina la necesidad de representaciones visuales específicas para cada tarea y unifica diversas tareas visión-lenguaje bajo un único paradigma de predicción autoregresiva. Al formular tanto la comprensión como la generación como predicción del siguiente token en un espacio continuo compartido, permite de manera fluida tareas multironda en contexto, como comprensión iterativa, generación y edición. Empíricamente, encontramos que el uso de una representación visual continua unificada reconcilia las demandas contrapuestas de los tokenizadores por parte de las tareas de comprensión y generación, lo que conduce a un rendimiento de vanguardia en ambos dominios. Esperamos que nuestros hallazgos faciliten la tokenización visual unificada en el dominio continuo. El código de inferencia y los pesos del modelo se han liberado para beneficio de la comunidad.
English
Visual tokenization remains a core challenge in unifying visual understanding
and generation within the autoregressive paradigm. Existing methods typically
employ tokenizers in discrete latent spaces to align with the tokens from large
language models, where the quantization errors can limit semantic
expressiveness and degrade the capability of vision-language understanding. To
address this, we introduce MingTok, a new family of visual tokenizers with a
continuous latent space, for unified autoregressive generation and
understanding. While understanding tasks favor discriminative high-dimensional
features, generation tasks prefer compact low-level codes. Thus, to reconcile
these competing demands, MingTok adopts a three-stage sequential architecture
involving low-level encoding, semantic expansion, and visual reconstruction.
Built on top of it, Ming-UniVision eliminates the need for task-specific visual
representations, and unifies diverse vision-language tasks under a single
autoregrsssive prediction paradigm. By formulating both understanding and
generation as next-token prediction in a shared continuous space, it seamlessly
supports multi-round, in-context tasks such as iterative understanding,
generation and editing. Empirically, we find that using a unified continuous
visual representation reconciles the competing requirements on the tokenizers
by the understanding and generation tasks, thereby leading to state-of-the-art
level performance across both domains. We hope our findings will facilitate
unified visual tokenization in the continuous domain. Inference code and model
weights are released to benefit community.