Ming-UniVision: Gezamenlijk beeldbegrip en -generatie met een uniforme continue tokenizer
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
October 8, 2025
Auteurs: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou
cs.AI
Samenvatting
Visuele tokenisatie blijft een kernuitdaging bij het verenigen van visueel begrip en generatie binnen het autoregressieve paradigma. Bestaande methoden gebruiken doorgaans tokenizers in discrete latente ruimtes om af te stemmen op de tokens van grote taalmodelen, waarbij de kwantiseringsfouten de semantische expressiviteit kunnen beperken en het vermogen tot visueel-taalkundig begrip kunnen aantasten. Om dit aan te pakken, introduceren we MingTok, een nieuwe familie van visuele tokenizers met een continue latente ruimte, voor verenigde autoregressieve generatie en begrip. Terwijl begriptaken de voorkeur geven aan discriminerende hoogdimensionale kenmerken, hebben generatietaken een voorkeur voor compacte laagniveau codes. Om deze tegenstrijdige eisen te verzoenen, hanteert MingTok een driestaps sequentiële architectuur die bestaat uit laagniveau codering, semantische expansie en visuele reconstructie. Hierop gebouwd elimineert Ming-UniVision de behoefte aan taakspecifieke visuele representaties en verenigt het diverse visueel-taalkundige taken onder een enkel autoregressief voorspellingsparadigma. Door zowel begrip als generatie te formuleren als volgende-token voorspelling in een gedeelde continue ruimte, ondersteunt het naadloos meerdere ronden van in-context taken, zoals iteratief begrip, generatie en bewerking. Empirisch vinden we dat het gebruik van een verenigde continue visuele representatie de tegenstrijdige eisen aan de tokenizers door begrip- en generatietaken verzoent, wat leidt tot state-of-the-art prestaties in beide domeinen. We hopen dat onze bevindingen de verenigde visuele tokenisatie in het continue domein zullen bevorderen. Inferentiecode en modelgewichten worden vrijgegeven ten behoeve van de gemeenschap.
English
Visual tokenization remains a core challenge in unifying visual understanding
and generation within the autoregressive paradigm. Existing methods typically
employ tokenizers in discrete latent spaces to align with the tokens from large
language models, where the quantization errors can limit semantic
expressiveness and degrade the capability of vision-language understanding. To
address this, we introduce MingTok, a new family of visual tokenizers with a
continuous latent space, for unified autoregressive generation and
understanding. While understanding tasks favor discriminative high-dimensional
features, generation tasks prefer compact low-level codes. Thus, to reconcile
these competing demands, MingTok adopts a three-stage sequential architecture
involving low-level encoding, semantic expansion, and visual reconstruction.
Built on top of it, Ming-UniVision eliminates the need for task-specific visual
representations, and unifies diverse vision-language tasks under a single
autoregrsssive prediction paradigm. By formulating both understanding and
generation as next-token prediction in a shared continuous space, it seamlessly
supports multi-round, in-context tasks such as iterative understanding,
generation and editing. Empirically, we find that using a unified continuous
visual representation reconciles the competing requirements on the tokenizers
by the understanding and generation tasks, thereby leading to state-of-the-art
level performance across both domains. We hope our findings will facilitate
unified visual tokenization in the continuous domain. Inference code and model
weights are released to benefit community.