ChatPaper.aiChatPaper

Het kwantificeren van de kloof tussen begrip en generatie binnen geünificeerde multimodale modellen

Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

February 2, 2026
Auteurs: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou
cs.AI

Samenvatting

Recente vooruitgang in verenigde multimodale modellen (UMM) heeft opmerkelijke vorderingen getoond in zowel begrips- als generatietaken. Of deze twee capaciteiten echter daadwerkelijk op één lijn zitten en geïntegreerd zijn binnen een enkel model, blijft onduidelijk. Om deze vraag te onderzoeken, introduceren we GapEval, een bidirectionele benchmark die is ontworpen om de kloof tussen begrips- en generatiecapaciteiten te kwantificeren en de cognitieve coherentie van de twee "verenigde" richtingen kwantitatief te meten. Elke vraag kan in beide modaliteiten (beeld en tekst) worden beantwoord, wat een symmetrische evaluatie mogelijk maakt van het bidirectionele inferentievermogen en de cross-modale consistentie van een model. Experimenten tonen een hardnekkige kloof aan tussen de twee richtingen bij een breed scala aan UMM's met verschillende architecturen, wat suggereert dat huidige modellen slechts een oppervlakkige unificatie bereiken in plaats van een diepe cognitieve convergentie van de twee. Om het onderliggende mechanisme verder te verkennen, voeren we een empirische studie uit vanuit het perspectief van kennismanipulatie om de onderliggende beperkingen te illustreren. Onze bevindingen geven aan dat kennis binnen UMM's vaak gefragmenteerd blijft. De emergentie van capaciteiten en kennis tussen modaliteiten zijn niet gesynchroniseerd, wat de weg vrijmaakt voor verder onderzoek.
English
Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.
PDF91February 6, 2026