RealUnify: Modelos Unificados Realmente Beneficiam-se da Unificação? Um Benchmark Abrangente
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
September 29, 2025
Autores: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu
cs.AI
Resumo
A integração da compreensão e geração visual em modelos multimodais unificados representa um avanço significativo em direção à IA de propósito geral. No entanto, uma questão fundamental permanece sem resposta pelos benchmarks existentes: essa unificação arquitetônica realmente permite uma interação sinérgica entre as capacidades constituintes? Os paradigmas de avaliação atuais, que avaliam principalmente a compreensão e a geração de forma isolada, são insuficientes para determinar se um modelo unificado pode aproveitar sua compreensão para aprimorar sua geração ou usar simulação generativa para facilitar uma compreensão mais profunda. Para abordar essa lacuna crítica, apresentamos o RealUnify, um benchmark projetado especificamente para avaliar a sinergia bidirecional de capacidades. O RealUnify compreende 1.000 instâncias meticulosamente anotadas por humanos, abrangendo 10 categorias e 32 subtarefas. Ele é estruturado em torno de dois eixos principais: 1) Compreensão Aprimora Geração, que exige raciocínio (por exemplo, senso comum, lógica) para orientar a geração de imagens, e 2) Geração Aprimora Compreensão, que requer simulação mental ou reconstrução (por exemplo, de entradas visuais transformadas ou desordenadas) para resolver tarefas de raciocínio. Uma contribuição fundamental é nosso protocolo de avaliação dupla, que combina avaliação direta de ponta a ponta com uma avaliação diagnóstica passo a passo que decompõe as tarefas em fases distintas de compreensão e geração. Esse protocolo nos permite discernir com precisão se os gargalos de desempenho decorrem de deficiências nas habilidades centrais ou de uma falha em integrá-las. Por meio de avaliações em larga escala de 12 modelos unificados líderes e 6 baselines especializados, descobrimos que os modelos unificados atuais ainda lutam para alcançar uma sinergia eficaz, indicando que a unificação arquitetônica por si só é insuficiente. Esses resultados destacam a necessidade de novas estratégias de treinamento e vieses indutivos para liberar totalmente o potencial da modelagem unificada.
English
The integration of visual understanding and generation into unified
multimodal models represents a significant stride toward general-purpose AI.
However, a fundamental question remains unanswered by existing benchmarks: does
this architectural unification actually enable synergetic interaction between
the constituent capabilities? Existing evaluation paradigms, which primarily
assess understanding and generation in isolation, are insufficient for
determining whether a unified model can leverage its understanding to enhance
its generation, or use generative simulation to facilitate deeper
comprehension. To address this critical gap, we introduce RealUnify, a
benchmark specifically designed to evaluate bidirectional capability synergy.
RealUnify comprises 1,000 meticulously human-annotated instances spanning 10
categories and 32 subtasks. It is structured around two core axes: 1)
Understanding Enhances Generation, which requires reasoning (e.g., commonsense,
logic) to guide image generation, and 2) Generation Enhances Understanding,
which necessitates mental simulation or reconstruction (e.g., of transformed or
disordered visual inputs) to solve reasoning tasks. A key contribution is our
dual-evaluation protocol, which combines direct end-to-end assessment with a
diagnostic stepwise evaluation that decomposes tasks into distinct
understanding and generation phases. This protocol allows us to precisely
discern whether performance bottlenecks stem from deficiencies in core
abilities or from a failure to integrate them. Through large-scale evaluations
of 12 leading unified models and 6 specialized baselines, we find that current
unified models still struggle to achieve effective synergy, indicating that
architectural unification alone is insufficient. These results highlight the
need for new training strategies and inductive biases to fully unlock the
potential of unified modeling.