UniG2U-Bench: ¿Avanzan los Modelos Unificados la Comprensión Multimodal?

Resumen

Los modelos multimodales unificados han demostrado recientemente una gran capacidad generativa, aunque sigue sin estar claro si y cuándo la generación mejora la comprensión. Los puntos de referencia existentes carecen de una exploración sistemática de las tareas específicas en las que la generación facilita la comprensión. Para ello, presentamos UniG2U-Bench, un punto de referencia integral que categoriza la evaluación de generación-comprensión (G2U) en 7 regímenes y 30 subtareas, que requieren distintos grados de transformaciones visuales implícitas o explícitas. La evaluación exhaustiva de más de 30 modelos revela tres hallazgos principales: 1) Los modelos unificados generalmente tienen un rendimiento inferior a sus Modelos de Lenguaje Visual (VLM) base, y la inferencia de Generar-y-Contestar (GtA) normalmente degrada el rendimiento en comparación con la inferencia directa. 2) Surgen mejoras consistentes en subtareas de inteligencia espacial, ilusiones visuales o razonamiento multironda, donde la percepción espacial y de formas mejorada, así como los estados de imagen intermedios multi-paso, resultan beneficiosos. 3) Las tareas con estructuras de razonamiento similares y los modelos que comparten arquitecturas exhiben comportamientos correlacionados, lo que sugiere que el acoplamiento generación-comprensión induce sesgos inductivos consistentes por clase sobre tareas, datos de preentrenamiento y arquitecturas de modelos. Estos hallazgos resaltan la necesidad de datos de entrenamiento más diversos y nuevos paradigmas para desbloquear plenamente el potencial del modelado multimodal unificado.

English

Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.

UniG2U-Bench: ¿Avanzan los Modelos Unificados la Comprensión Multimodal?

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Resumen

Support