ChatPaper.aiChatPaper

Quantifizierung der Kluft zwischen Verständnis und Generierung in vereinheitlichten multimodalen Modellen

Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

February 2, 2026
papers.authors: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou
cs.AI

papers.abstract

Jüngste Fortschritte bei vereinheitlichten multimodalen Modellen (UMM) haben bemerkenswerte Erfolge sowohl bei Verstehens- als auch bei Generierungsaufgaben gezeigt. Es bleibt jedoch unklar, ob diese beiden Fähigkeiten tatsächlich abgestimmt und in einem einzigen Modell integriert sind. Um dieser Frage nachzugehen, stellen wir GapEval vor, einen bidirektionalen Benchmark, der entwickelt wurde, um die Lücke zwischen Verstehens- und Generierungsfähigkeiten zu quantifizieren und die kognitive Kohärenz der beiden "vereinheitlichten" Richtungen quantitativ zu messen. Jede Frage kann in beiden Modalitäten (Bild und Text) beantwortet werden, was eine symmetrische Bewertung der bidirektionalen Inferenzfähigkeit eines Modells und seiner cross-modalen Konsistenz ermöglicht. Experimente zeigen eine beständige Lücke zwischen den beiden Richtungen über eine Vielzahl von UMMs mit unterschiedlichen Architekturen hinweg, was darauf hindeutet, dass aktuelle Modelle nur eine oberflächliche Vereinheitlichung und keine tiefe kognitive Konvergenz der beiden Fähigkeiten erreichen. Um den zugrundeliegenden Mechanismus weiter zu erforschen, führen wir eine empirische Studie aus der Perspektive der Wissensmanipulation durch, um die grundlegenden Limitierungen zu veranschaulichen. Unsere Ergebnisse deuten darauf hin, dass Wissen innerhalb von UMMs oft fragmentiert bleibt. Die Fähigkeitsentstehung und das Wissen über Modalitäten hinweg sind nicht synchronisiert, was den Weg für weitere Erkundungen ebnet.
English
Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.
PDF91February 6, 2026