UniG2U-Bench: Bevorderen uniforme modellen multimodaal begrip?

Samenvatting

Unified multimodale modellen hebben recentelijk sterke generatieve capaciteiten getoond, maar het blijft onduidelijk of en wanneer generatie het begrip verbetert. Bestaande benchmarks ontberen een systematische verkenning van de specifieke taken waarbij generatie het begrip vergemakkelijkt. Daartoe introduceren we UniG2U-Bench, een uitgebreide benchmark die de evaluatie van generatie-naar-begrip (G2U) categoriseert in 7 regimes en 30 subtaken, waarvoor verschillende gradaties van impliciete of expliciete visuele transformaties vereist zijn. Uitgebreide evaluatie van meer dan 30 modellen onthult drie kernbevindingen: 1) Unified modellen presteren over het algemeen slechter dan hun basale Vision-Language Models (VLM's), en Generate-then-Answer (GtA) inferentie leidt typisch tot prestatievermindering in vergelijking met directe inferentie. 2) Consistente verbeteringen doen zich voor bij subtaken voor ruimtelijke intelligentie, visuele illusies of meervoudige redenering, waarbij verbeterde ruimtelijke en vormperceptie, evenals meerstaps tussenliggende beeldtoestanden, voordelig blijken. 3) Taken met vergelijkbare redeneerstructuren en modellen met gedeelde architecturen vertonen gecorreleerd gedrag, wat suggereert dat generatie-begrip-koppeling klasseconsistente inductieve vooroordelen induceert over taken, pretrainingsdata en modelarchitecturen. Deze bevindingen benadrukken de noodzaak van meer diverse trainingsdata en nieuwe paradigma's om de potentie van unified multimodale modellering volledig te ontsluiten.

English

Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.

UniG2U-Bench: Bevorderen uniforme modellen multimodaal begrip?

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Samenvatting

Support