ChatPaper.aiChatPaper

Cuantificando la Brecha entre la Comprensión y la Generación en Modelos Multimodales Unificados

Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

February 2, 2026
Autores: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou
cs.AI

Resumen

Los recientes avances en modelos multimodales unificados (UMM) han demostrado un progreso notable tanto en tareas de comprensión como de generación. Sin embargo, sigue sin estar claro si estas dos capacidades están genuinamente alineadas e integradas dentro de un único modelo. Para investigar esta cuestión, presentamos GapEval, un benchmark bidireccional diseñado para cuantificar la brecha entre las capacidades de comprensión y generación, y medir cuantitativamente la coherencia cognitiva de las dos direcciones "unificadas". Cada pregunta puede responderse en ambas modalidades (imagen y texto), permitiendo una evaluación simétrica de la capacidad de inferencia bidireccional de un modelo y de su consistencia cross-modal. Los experimentos revelan una brecha persistente entre las dos direcciones en una amplia gama de UMM con diferentes arquitecturas, lo que sugiere que los modelos actuales logran solo una unificación superficial en lugar de una convergencia cognitiva profunda de ambas. Para explorar más a fondo el mecanismo subyacente, realizamos un estudio empírico desde la perspectiva de la manipulación del conocimiento para ilustrar las limitaciones subyacentes. Nuestros hallazgos indican que el conocimiento dentro de los UMM a menudo permanece disociado. La emergencia de capacidades y el conocimiento a través de las modalidades no están sincronizados, allanando el camino para una mayor exploración.
English
Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.
PDF91February 6, 2026