UniG2U-Bench: Способствуют ли унифицированные модели прогрессу в мультимодальном понимании?

Аннотация

Унифицированные мультимодальные модели недавно продемонстрировали мощные генеративные способности, однако вопрос о том, улучшает ли генерация понимание и в каких случаях, остается неясным. Существующие бенчмарки не предусматривают систематического исследования конкретных задач, в которых генерация способствует пониманию. Для решения этой проблемы мы представляем UniG2U-Bench — комплексный бенчмарк, который категоризирует оценку «от генерации к пониманию» (G2U) по 7 режимам и 30 подзадачам, требующим различной степени неявных или явных визуальных преобразований. Масштабная оценка более 30 моделей выявила три ключевых результата: 1) Унифицированные модели в целом уступают своим базовым визуально-языковым моделям (VLM), а стратегия «сгенерировать, затем ответить» (GtA) обычно ухудшает производительность по сравнению с прямым выводом. 2) Устойчивые улучшения наблюдаются в подзадачах на пространственный интеллект, зрительные иллюзии или многошаговые рассуждения, где полезными оказываются усиленное восприятие пространства и формы, а также промежуточные состояния изображения в multi-step процессах. 3) Задачи со схожими структурами рассуждений и модели с общей архитектурой демонстрируют коррелированное поведение, что позволяет предположить, что связь «генерация-понимание» индуцирует класс-согласованные индуктивные смещения для задач, данных предобучения и архитектур моделей. Эти результаты подчеркивают необходимость в более разнообразных данных для обучения и новых парадигмах для полного раскрытия потенциала унифицированного мультимодального моделирования.

English

Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.

UniG2U-Bench: Способствуют ли унифицированные модели прогрессу в мультимодальном понимании?

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Аннотация

Support