Ming-UniVision: Gemeinsames Bildverständnis und -generierung mit einem einheitlichen kontinuierlichen Tokenizer
Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer
October 8, 2025
papers.authors: Ziyuan Huang, DanDan Zheng, Cheng Zou, Rui Liu, Xiaolong Wang, Kaixiang Ji, Weilong Chai, Jianxin Sun, Libin Wang, Yongjie Lv, Taozhi Huang, Jiajia Liu, Qingpei Guo, Ming Yang, Jingdong Chen, Jun Zhou
cs.AI
papers.abstract
Die visuelle Tokenisierung bleibt eine zentrale Herausforderung bei der Vereinheitlichung von visuellem Verständnis und Generierung innerhalb des autoregressiven Paradigmas. Bestehende Methoden verwenden typischerweise Tokenizer in diskreten latenten Räumen, um sie mit den Token großer Sprachmodelle abzugleichen, wobei Quantisierungsfehler die semantische Ausdrucksfähigkeit einschränken und die Fähigkeit des visuell-sprachlichen Verständnisses beeinträchtigen können. Um dies zu adressieren, führen wir MingTok ein, eine neue Familie von visuellen Tokenizern mit einem kontinuierlichen latenten Raum, für die vereinheitlichte autoregressive Generierung und Verständnis. Während Verständnisaufgaben diskriminative hochdimensionale Merkmale bevorzugen, bevorzugen Generierungsaufgaben kompakte Low-Level-Codes. Um diese konkurrierenden Anforderungen in Einklang zu bringen, verwendet MingTok eine dreistufige sequenzielle Architektur, die Low-Level-Kodierung, semantische Erweiterung und visuelle Rekonstruktion umfasst. Darauf aufbauend eliminiert Ming-UniVision die Notwendigkeit für aufgabenspezifische visuelle Repräsentationen und vereinheitlicht diverse visuell-sprachliche Aufgaben unter einem einzigen autoregressiven Vorhersageparadigma. Indem sowohl Verständnis als auch Generierung als Vorhersage des nächsten Tokens in einem gemeinsamen kontinuierlichen Raum formuliert werden, unterstützt es nahtlos mehrstufige, kontextbezogene Aufgaben wie iteratives Verständnis, Generierung und Bearbeitung. Empirisch stellen wir fest, dass die Verwendung einer vereinheitlichten kontinuierlichen visuellen Repräsentation die konkurrierenden Anforderungen an die Tokenizer durch Verständnis- und Generierungsaufgaben in Einklang bringt und dadurch zu state-of-the-art Leistungen in beiden Bereichen führt. Wir hoffen, dass unsere Erkenntnisse die vereinheitlichte visuelle Tokenisierung im kontinuierlichen Bereich vorantreiben werden. Inferenzcode und Modellgewichte werden veröffentlicht, um der Gemeinschaft zugutekommen.
English
Visual tokenization remains a core challenge in unifying visual understanding
and generation within the autoregressive paradigm. Existing methods typically
employ tokenizers in discrete latent spaces to align with the tokens from large
language models, where the quantization errors can limit semantic
expressiveness and degrade the capability of vision-language understanding. To
address this, we introduce MingTok, a new family of visual tokenizers with a
continuous latent space, for unified autoregressive generation and
understanding. While understanding tasks favor discriminative high-dimensional
features, generation tasks prefer compact low-level codes. Thus, to reconcile
these competing demands, MingTok adopts a three-stage sequential architecture
involving low-level encoding, semantic expansion, and visual reconstruction.
Built on top of it, Ming-UniVision eliminates the need for task-specific visual
representations, and unifies diverse vision-language tasks under a single
autoregrsssive prediction paradigm. By formulating both understanding and
generation as next-token prediction in a shared continuous space, it seamlessly
supports multi-round, in-context tasks such as iterative understanding,
generation and editing. Empirically, we find that using a unified continuous
visual representation reconciles the competing requirements on the tokenizers
by the understanding and generation tasks, thereby leading to state-of-the-art
level performance across both domains. We hope our findings will facilitate
unified visual tokenization in the continuous domain. Inference code and model
weights are released to benefit community.