UniG2U-Bench: Os Modelos Unificados Avançam a Compreensão Multimodal?

Resumo

Os modelos multimodais unificados têm demonstrado recentemente capacidades generativas robustas, contudo, permanece pouco claro se e quando a geração melhora a compreensão. Os benchmarks existentes carecem de uma exploração sistemática das tarefas específicas onde a geração facilita o entendimento. Para tal, introduzimos o UniG2U-Bench, um benchmark abrangente que categoriza a avaliação de geração-para-compreensão (G2U) em 7 regimes e 30 subtarefas, exigindo diferentes graus de transformações visuais implícitas ou explícitas. A avaliação extensiva de mais de 30 modelos revela três descobertas principais: 1) Modelos unificados geralmente têm desempenho inferior aos seus Modelos de Visão e Linguagem (VLMs) base, e a inferência Gerar-e-depois-Responder (GtA) tipicamente degrada o desempenho em relação à inferência direta. 2) Surgem melhorias consistentes em subtarefas de inteligência espacial, ilusões de ótica ou raciocínio multi-etapas, onde a percepção espacial e de formas aprimorada, bem como estados de imagem intermediários multi-etapas, mostram-se benéficos. 3) Tarefas com estruturas de raciocínio similares e modelos que partilham arquiteturas exibem comportamentos correlacionados, sugerindo que o acoplamento geração-compreensão induz vieses indutivos consistentes por classe sobre tarefas, dados de pré-treinamento e arquiteturas de modelo. Estas descobertas destacam a necessidade de dados de treino mais diversificados e novos paradigmas para libertar plenamente o potencial da modelação multimodal unificada.

English

Unified multimodal models have recently demonstrated strong generative capabilities, yet whether and when generation improves understanding remains unclear. Existing benchmarks lack a systematic exploration of the specific tasks where generation facilitates understanding. To this end, we introduce UniG2U-Bench, a comprehensive benchmark categorizing generation-to-understanding (G2U) evaluation into 7 regimes and 30 subtasks, requiring varying degrees of implicit or explicit visual transformations. Extensive evaluation of over 30 models reveals three core findings: 1) Unified models generally underperform their base Vision-Language Models (VLMs), and Generate-then-Answer (GtA) inference typically degrades performance relative to direct inference. 2) Consistent enhancements emerge in spatial intelligence, visual illusions, or multi-round reasoning subtasks, where enhanced spatial and shape perception, as well as multi-step intermediate image states, prove beneficial. 3) Tasks with similar reasoning structures and models sharing architectures exhibit correlated behaviors, suggesting that generation-understanding coupling induces class-consistent inductive biases over tasks, pretraining data, and model architectures. These findings highlight the necessity for more diverse training data and novel paradigms to fully unlock the potential of unified multimodal modeling.

UniG2U-Bench: Os Modelos Unificados Avançam a Compreensão Multimodal?

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Resumo

Support