ChatPaper.aiChatPaper

Quantifier l'écart entre compréhension et génération dans les modèles multimodaux unifiés

Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

February 2, 2026
papers.authors: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou
cs.AI

papers.abstract

Les récents progrès des modèles multimodaux unifiés (UMM) ont démontré des avancées remarquables dans les tâches de compréhension et de génération. Cependant, la question de savoir si ces deux capacités sont véritablement alignées et intégrées au sein d'un même modèle demeure incertaine. Pour étudier cette problématique, nous présentons GapEval, un benchmark bidirectionnel conçu pour quantifier l'écart entre les capacités de compréhension et de génération, et mesurer quantitativement la cohérence cognitive des deux directions dites « unifiées ». Chaque question peut être répondue dans les deux modalités (image et texte), permettant une évaluation symétrique de la capacité d'inférence bidirectionnelle d'un modèle et de sa cohérence cross-modale. Les expériences révèlent un écart persistant entre les deux directions pour une large gamme d'UMM aux architectures variées, suggérant que les modèles actuels n'atteignent qu'une unification superficielle plutôt qu'une convergence cognitive profonde des deux capacités. Pour explorer plus avant le mécanisme sous-jacent, nous menons une étude empirique sous l'angle de la manipulation des connaissances afin d'illustrer les limitations fondamentales. Nos résultats indiquent que les connaissances au sein des UMM restent souvent disjointes. L'émergence des capacités et les connaissances à travers les modalités ne sont pas synchronisées, ouvrant la voie à de futures explorations.
English
Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.
PDF91February 6, 2026