Ming-UniVision : Compréhension et génération d'images conjointes avec un tokeniseur unifié continu
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
October 8, 2025
papers.authors: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou
cs.AI
papers.abstract
La tokenisation visuelle reste un défi central pour unifier la compréhension et la génération visuelles dans le paradigme autorégressif. Les méthodes existantes utilisent généralement des tokenizers dans des espaces latents discrets pour s'aligner sur les tokens des grands modèles de langage, où les erreurs de quantification peuvent limiter l'expressivité sémantique et dégrader la capacité de compréhension vision-langage. Pour résoudre ce problème, nous introduisons MingTok, une nouvelle famille de tokenizers visuels avec un espace latent continu, pour une génération et une compréhension autorégressives unifiées. Alors que les tâches de compréhension privilégient des caractéristiques discriminantes de haute dimension, les tâches de génération préfèrent des codes compacts de bas niveau. Ainsi, pour concilier ces exigences concurrentes, MingTok adopte une architecture séquentielle en trois étapes impliquant un encodage de bas niveau, une expansion sémantique et une reconstruction visuelle. Basé sur cette architecture, Ming-UniVision élimine le besoin de représentations visuelles spécifiques à chaque tâche et unifie diverses tâches vision-langage sous un seul paradigme de prédiction autorégressive. En formulant à la fois la compréhension et la génération comme une prédiction de token suivant dans un espace continu partagé, il prend en charge de manière transparente des tâches contextuelles multi-tours telles que la compréhension itérative, la génération et l'édition. Empiriquement, nous constatons que l'utilisation d'une représentation visuelle continue unifiée concilie les exigences concurrentes des tâches de compréhension et de génération sur les tokenizers, conduisant ainsi à des performances de pointe dans les deux domaines. Nous espérons que nos résultats faciliteront la tokenisation visuelle unifiée dans le domaine continu. Le code d'inférence et les poids des modèles sont publiés pour bénéficier à la communauté.
English
Visual tokenization remains a core challenge in unifying visual understanding
and generation within the autoregressive paradigm. Existing methods typically
employ tokenizers in discrete latent spaces to align with the tokens from large
language models, where the quantization errors can limit semantic
expressiveness and degrade the capability of vision-language understanding. To
address this, we introduce MingTok, a new family of visual tokenizers with a
continuous latent space, for unified autoregressive generation and
understanding. While understanding tasks favor discriminative high-dimensional
features, generation tasks prefer compact low-level codes. Thus, to reconcile
these competing demands, MingTok adopts a three-stage sequential architecture
involving low-level encoding, semantic expansion, and visual reconstruction.
Built on top of it, Ming-UniVision eliminates the need for task-specific visual
representations, and unifies diverse vision-language tasks under a single
autoregrsssive prediction paradigm. By formulating both understanding and
generation as next-token prediction in a shared continuous space, it seamlessly
supports multi-round, in-context tasks such as iterative understanding,
generation and editing. Empirically, we find that using a unified continuous
visual representation reconciles the competing requirements on the tokenizers
by the understanding and generation tasks, thereby leading to state-of-the-art
level performance across both domains. We hope our findings will facilitate
unified visual tokenization in the continuous domain. Inference code and model
weights are released to benefit community.