UniG2U-Bench: Fördern vereinheitlichte Modelle das multimodale Verständnis?

Zusammenfassung

Einheitliche multimodale Modelle haben kürzlich starke generative Fähigkeiten demonstriert, doch ob und wann Generierung das Verständnis verbessert, bleibt unklar. Bestehende Benchmarks fehlen eine systematische Untersuchung der spezifischen Aufgaben, bei denen Generierung das Verständnis erleichtert. Zu diesem Zweck führen wir UniG2U-Bench ein, einen umfassenden Benchmark, der die Generierung-zu-Verständnis (G2U)-Evaluation in 7 Regime und 30 Teilaufgaben kategorisiert und unterschiedliche Grade impliziter oder expliziter visueller Transformationen erfordert. Eine umfangreiche Evaluierung von über 30 Modellen zeigt drei zentrale Erkenntnisse: 1) Einheitliche Modelle schneiden generell schlechter ab als ihre Basis-Vision-Sprache-Modelle (VLMs), und Generate-then-Answer (GtA)-Inferenz verschlechtert typischerweise die Leistung im Vergleich zur direkten Inferenz. 2) Konsistente Verbesserungen zeigen sich bei Teilaufgaben zu räumlicher Intelligenz, visuellen Illusionen oder mehrstufigem Reasoning, bei denen erweiterte räumliche und Formwahrnehmung sowie mehrstufige Zwischenbildzustände vorteilhaft sind. 3) Aufgaben mit ähnlichen Reasoning-Strukturen und Modelle mit gemeinsamen Architekturen zeigen korrelierte Verhaltensmuster, was darauf hindeutet, dass die Generierung-Verständnis-Kopplung klassenkonsistente induktive Verzerrungen über Aufgaben, Vortrainingsdaten und Modellarchitekturen induziert. Diese Erkenntnisse unterstreichen die Notwendigkeit diverserer Trainingsdaten und neuartiger Paradigmen, um das Potenzial einheitlicher multimodaler Modellierung vollständig zu erschließen.

English

Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.

UniG2U-Bench: Fördern vereinheitlichte Modelle das multimodale Verständnis?

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Zusammenfassung

Support