ChatPaper.aiChatPaper

Количественная оценка разрыва между пониманием и генерацией в унифицированных мультимодальных моделях

Quantifying the Gap between Understanding and Generation within Unified Multimodal Models

February 2, 2026
Авторы: Chenlong Wang, Yuhang Chen, Zhihan Hu, Dongping Chen, Wenhu Chen, Sarah Wiegreffe, Tianyi Zhou
cs.AI

Аннотация

Последние достижения в области унифицированных мультимодальных моделей (UMM) продемонстрировали значительный прогресс в задачах как понимания, так и генерации. Однако остается неясным, являются ли эти две способности действительно согласованными и интегрированными в рамках единой модели. Для исследования этого вопроса мы представляем GapEval — двунаправленный бенчмарк, предназначенный для количественной оценки разрыва между способностями к пониманию и генерации и измерения когерентности двух «унифицированных» направлений. Каждый вопрос может быть решен в обеих модальностях (изображение и текст), что позволяет провести симметричную оценку двунаправленной способности модели к выводу и кросс-модальной согласованности. Эксперименты выявляют устойчивый разрыв между двумя направлениями для широкого спектра UMM с различными архитектурами, что позволяет предположить, что современные модели достигают лишь поверхностного объединения, а не глубокой когнитивной конвергенции двух способностей. Для дальнейшего изучения лежащих в основе механизмов мы проводим эмпирическое исследование с точки зрения манипулирования знаниями, чтобы проиллюстрировать фундаментальные ограничения. Наши результаты показывают, что знания внутри UMM часто остаются разрозненными. Возникновение способностей и передача знаний между модальностями не синхронизированы, что открывает путь для дальнейших исследований.
English
Recent advances in unified multimodal models (UMM) have demonstrated remarkable progress in both understanding and generation tasks. However, whether these two capabilities are genuinely aligned and integrated within a single model remains unclear. To investigate this question, we introduce GapEval, a bidirectional benchmark designed to quantify the gap between understanding and generation capabilities, and quantitatively measure the cognitive coherence of the two "unified" directions. Each question can be answered in both modalities (image and text), enabling a symmetric evaluation of a model's bidirectional inference capability and cross-modal consistency. Experiments reveal a persistent gap between the two directions across a wide range of UMMs with different architectures, suggesting that current models achieve only surface-level unification rather than deep cognitive convergence of the two. To further explore the underlying mechanism, we conduct an empirical study from the perspective of knowledge manipulation to illustrate the underlying limitations. Our findings indicate that knowledge within UMMs often remains disjoint. The capability emergence and knowledge across modalities are unsynchronized, paving the way for further exploration.
PDF91February 6, 2026