ChatPaper.aiChatPaper

統合マルチモーダルモデルにおける理解と生成の隔たりの定量化

Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

February 2, 2026
著者: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou
cs.AI

要旨

統合マルチモーダルモデル(UMM)の最近の進展は、理解タスクと生成タスクの両方で著しい進歩を示している。しかし、これら二つの能力が単一モデル内で真に整合し統合されているかどうかは不明である。この問題を調査するため、我々は理解能力と生成能力の間の隔たりを定量化し、二つの「統合された」方向性の認知的コヒーレンスを測定するための双方向ベンチマークであるGapEvalを提案する。各設問は両モダリティ(画像とテキスト)で回答可能であり、モデルの双方向推論能力とクロスモーダル一貫性を対称的に評価することを可能にする。実験により、様々なアーキテクチャを持つ広範なUMMにおいて、二方向の間には永続的な隔たりが存在することが明らかとなり、現在のモデルが達成しているのは二つの能力の深い認知的統合ではなく、表面的な統合に過ぎないことが示唆される。根本的なメカニズムをさらに探求するため、我々は知識操作の観点から実証研究を行い、根本的な限界を明らかにする。我々の発見は、UMM内の知識がしばしば分断されたままであることを示している。能力創発とモダリティ間の知識は非同期であり、さらなる探求の道を開くものである。
English
Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.
PDF91February 6, 2026