Ming-UniVision: Comprensione e Generazione Congiunta di Immagini con un Tokenizzatore Continuo Unificato
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
October 8, 2025
Autori: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou
cs.AI
Abstract
La tokenizzazione visiva rimane una sfida fondamentale nell'unificazione della comprensione e della generazione visiva all'interno del paradigma autoregressivo. I metodi esistenti tipicamente impiegano tokenizer in spazi latenti discreti per allinearsi ai token dei modelli linguistici su larga scala, dove gli errori di quantizzazione possono limitare l'espressività semantica e degradare la capacità di comprensione visuo-linguistica. Per affrontare questo problema, introduciamo MingTok, una nuova famiglia di tokenizer visivi con uno spazio latente continuo, per la generazione e comprensione autoregressiva unificata. Mentre i compiti di comprensione favoriscono caratteristiche discriminative ad alta dimensionalità, i compiti di generazione preferiscono codici compatti di basso livello. Pertanto, per conciliare queste esigenze contrastanti, MingTok adotta un'architettura sequenziale in tre fasi che coinvolge la codifica di basso livello, l'espansione semantica e la ricostruzione visiva. Basato su di essa, Ming-UniVision elimina la necessità di rappresentazioni visive specifiche per ogni compito e unifica diverse attività visuo-linguistiche sotto un unico paradigma di previsione autoregressiva. Formulando sia la comprensione che la generazione come previsione del token successivo in uno spazio condiviso e continuo, supporta senza soluzione di continuità attività multi-round e contestuali come la comprensione iterativa, la generazione e la modifica. Empiricamente, abbiamo riscontrato che l'uso di una rappresentazione visiva continua unificata concilia le esigenze contrastanti imposte ai tokenizer dai compiti di comprensione e generazione, portando così a prestazioni di livello all'avanguardia in entrambi i domini. Speriamo che i nostri risultati facilitino la tokenizzazione visiva unificata nel dominio continuo. Il codice di inferenza e i pesi del modello sono stati rilasciati a beneficio della comunità.
English
Visual tokenization remains a core challenge in unifying visual understanding
and generation within the autoregressive paradigm. Existing methods typically
employ tokenizers in discrete latent spaces to align with the tokens from large
language models, where the quantization errors can limit semantic
expressiveness and degrade the capability of vision-language understanding. To
address this, we introduce MingTok, a new family of visual tokenizers with a
continuous latent space, for unified autoregressive generation and
understanding. While understanding tasks favor discriminative high-dimensional
features, generation tasks prefer compact low-level codes. Thus, to reconcile
these competing demands, MingTok adopts a three-stage sequential architecture
involving low-level encoding, semantic expansion, and visual reconstruction.
Built on top of it, Ming-UniVision eliminates the need for task-specific visual
representations, and unifies diverse vision-language tasks under a single
autoregrsssive prediction paradigm. By formulating both understanding and
generation as next-token prediction in a shared continuous space, it seamlessly
supports multi-round, in-context tasks such as iterative understanding,
generation and editing. Empirically, we find that using a unified continuous
visual representation reconciles the competing requirements on the tokenizers
by the understanding and generation tasks, thereby leading to state-of-the-art
level performance across both domains. We hope our findings will facilitate
unified visual tokenization in the continuous domain. Inference code and model
weights are released to benefit community.