RealUnify: ¿Los modelos unificados realmente se benefician de la unificación? Un punto de referencia integral
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
September 29, 2025
Autores: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu
cs.AI
Resumen
La integración de la comprensión y generación visual en modelos multimodales unificados representa un avance significativo hacia la inteligencia artificial de propósito general. Sin embargo, una pregunta fundamental sigue sin respuesta en los benchmarks existentes: ¿realmente esta unificación arquitectónica permite una interacción sinérgica entre las capacidades constituyentes? Los paradigmas de evaluación actuales, que principalmente evalúan la comprensión y la generación de manera aislada, son insuficientes para determinar si un modelo unificado puede aprovechar su comprensión para mejorar su generación o utilizar la simulación generativa para facilitar una comprensión más profunda. Para abordar esta brecha crítica, presentamos RealUnify, un benchmark diseñado específicamente para evaluar la sinergia bidireccional de capacidades. RealUnify comprende 1,000 instancias meticulosamente anotadas por humanos que abarcan 10 categorías y 32 subtareas. Está estructurado en torno a dos ejes principales: 1) La Comprensión Mejora la Generación, que requiere razonamiento (por ejemplo, sentido común, lógica) para guiar la generación de imágenes, y 2) La Generación Mejora la Comprensión, que exige simulación mental o reconstrucción (por ejemplo, de entradas visuales transformadas o desordenadas) para resolver tareas de razonamiento. Una contribución clave es nuestro protocolo de evaluación dual, que combina la evaluación directa de extremo a extremo con una evaluación diagnóstica paso a paso que descompone las tareas en fases distintas de comprensión y generación. Este protocolo nos permite discernir con precisión si los cuellos de botella en el rendimiento se deben a deficiencias en las capacidades centrales o a un fallo en su integración. A través de evaluaciones a gran escala de 12 modelos unificados líderes y 6 líneas base especializadas, encontramos que los modelos unificados actuales aún tienen dificultades para lograr una sinergia efectiva, lo que indica que la unificación arquitectónica por sí sola es insuficiente. Estos resultados resaltan la necesidad de nuevas estrategias de entrenamiento y sesgos inductivos para desbloquear plenamente el potencial del modelado unificado.
English
The integration of visual understanding and generation into unified
multimodal models represents a significant stride toward general-purpose AI.
However, a fundamental question remains unanswered by existing benchmarks: does
this architectural unification actually enable synergetic interaction between
the constituent capabilities? Existing evaluation paradigms, which primarily
assess understanding and generation in isolation, are insufficient for
determining whether a unified model can leverage its understanding to enhance
its generation, or use generative simulation to facilitate deeper
comprehension. To address this critical gap, we introduce RealUnify, a
benchmark specifically designed to evaluate bidirectional capability synergy.
RealUnify comprises 1,000 meticulously human-annotated instances spanning 10
categories and 32 subtasks. It is structured around two core axes: 1)
Understanding Enhances Generation, which requires reasoning (e.g., commonsense,
logic) to guide image generation, and 2) Generation Enhances Understanding,
which necessitates mental simulation or reconstruction (e.g., of transformed or
disordered visual inputs) to solve reasoning tasks. A key contribution is our
dual-evaluation protocol, which combines direct end-to-end assessment with a
diagnostic stepwise evaluation that decomposes tasks into distinct
understanding and generation phases. This protocol allows us to precisely
discern whether performance bottlenecks stem from deficiencies in core
abilities or from a failure to integrate them. Through large-scale evaluations
of 12 leading unified models and 6 specialized baselines, we find that current
unified models still struggle to achieve effective synergy, indicating that
architectural unification alone is insufficient. These results highlight the
need for new training strategies and inductive biases to fully unlock the
potential of unified modeling.