UniG2U-Bench: I Modelli Unificati Fanno Progredire la Comprensione Multimodale?

Abstract

I modelli multimodali unificati hanno recentemente dimostrato forti capacità generative, ma rimane poco chiaro se e quando la generazione migliori la comprensione. I benchmark esistenti mancano di un'esplorazione sistematica dei compiti specifici in cui la generazione facilita la comprensione. A tal fine, introduciamo UniG2U-Bench, un benchmark completo che categorizza la valutazione generazione-per-comprensione (G2U) in 7 regimi e 30 sottocompiti, che richiedono vari gradi di trasformazioni visive implicite o esplicite. Una valutazione estesa di oltre 30 modelli rivela tre risultati fondamentali: 1) I modelli unificati generalmente ottengono prestazioni inferiori rispetto ai modelli base di visione e linguaggio (VLM), e l'inferenza Genera-e-poi-Rispondi (GtA) tipicamente degrada le prestazioni rispetto all'inferenza diretta. 2) Miglioramenti consistenti emergono nei sottocompiti di intelligenza spaziale, illusioni ottiche o ragionamento multi-round, dove si rivelano vantaggiose una percezione spaziale e delle forme potenziata, nonché stati immagine intermedi multi-step. 3) Compiti con strutture di ragionamento simili e modelli che condividono architetture mostrano comportamenti correlati, suggerendo che l'accoppiamento generazione-comprensione induce bias induttivi coerenti per classe rispetto a compiti, dati di pre-addestramento e architetture dei modelli. Questi risultati evidenziano la necessità di dati di addestramento più diversificati e nuovi paradigmi per sbloccare appieno il potenziale della modellazione multimodale unificata.

English

Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.

UniG2U-Bench: I Modelli Unificati Fanno Progredire la Comprensione Multimodale?

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Abstract

Support