UniG2U-Bench : Les modèles unifiés font-ils progresser la compréhension multimodale ?

Résumé

Les modèles multimodaux unifiés ont récemment démontré de fortes capacités génératives, mais la question de savoir si et quand la génération améliore la compréhension reste peu claire. Les benchmarks existants ne permettent pas une exploration systématique des tâches spécifiques où la génération facilite la compréhension. Pour pallier cela, nous présentons UniG2U-Bench, un benchmark complet qui catégorise l'évaluation de la génération vers la compréhension (G2U) en 7 régimes et 30 sous-tâches, nécessitant divers degrés de transformations visuelles implicites ou explicites. L'évaluation approfondie de plus de 30 modèles révèle trois résultats fondamentaux : 1) Les modèles unifiés obtiennent généralement des performances inférieures à leurs modèles de base vision-langage (VLM), et l'inférence Générer-puis-Répondre (GtA) dégrade généralement les performances par rapport à l'inférence directe. 2) Des améliorations constantes émergent dans les sous-tâches d'intelligence spatiale, d'illusions visuelles ou de raisonnement multi-tours, où une perception spatiale et des formes améliorée, ainsi que des états intermédiaires d'image multi-étapes, s'avèrent bénéfiques. 3) Les tâches avec des structures de raisonnement similaires et les modèles partageant des architectures présentent des comportements corrélés, suggérant que le couplage génération-compréhension induit des biais inductifs cohérents par classe sur les tâches, les données de pré-entraînement et les architectures de modèles. Ces résultats soulignent la nécessité de données d'entraînement plus diversifiées et de nouveaux paradigmes pour libérer pleinement le potentiel de la modélisation multimodale unifiée.

English

Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.

UniG2U-Bench : Les modèles unifiés font-ils progresser la compréhension multimodale ?

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Résumé

Support