RealUnify: Действительно ли унифицированные модели выигрывают от унификации? Всесторонний бенчмарк
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
September 29, 2025
Авторы: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu
cs.AI
Аннотация
Интеграция визуального понимания и генерации в унифицированные мультимодальные модели представляет собой значительный шаг на пути к созданию универсального искусственного интеллекта. Однако фундаментальный вопрос, остающийся без ответа в существующих тестах, заключается в следующем: действительно ли такая архитектурная унификация способствует синергетическому взаимодействию между составляющими возможностями? Существующие парадигмы оценки, которые в основном тестируют понимание и генерацию изолированно, недостаточны для определения того, может ли унифицированная модель использовать свое понимание для улучшения генерации или применять генеративное моделирование для углубления понимания. Чтобы устранить этот критический пробел, мы представляем RealUnify — тестовый набор, специально разработанный для оценки двунаправленной синергии возможностей. RealUnify включает 1000 тщательно аннотированных человеком примеров, охватывающих 10 категорий и 32 подзадачи. Он структурирован вокруг двух основных осей: 1) «Понимание улучшает генерацию», где требуется использование рассуждений (например, здравого смысла, логики) для управления генерацией изображений, и 2) «Генерация улучшает понимание», где необходимо мысленное моделирование или реконструкция (например, преобразованных или нарушенных визуальных данных) для решения задач на рассуждение. Ключевым вкладом является наш двойной протокол оценки, который сочетает прямое сквозное тестирование с диагностическим пошаговым анализом, разбивающим задачи на отдельные этапы понимания и генерации. Этот протокол позволяет точно определить, связаны ли узкие места в производительности с недостатками в базовых возможностях или с неспособностью их интегрировать. В результате масштабной оценки 12 ведущих унифицированных моделей и 6 специализированных базовых моделей мы обнаружили, что современные унифицированные модели все еще испытывают трудности с достижением эффективной синергии, что указывает на недостаточность одной лишь архитектурной унификации. Эти результаты подчеркивают необходимость новых стратегий обучения и индуктивных смещений для полного раскрытия потенциала унифицированного моделирования.
English
The integration of visual understanding and generation into unified
multimodal models represents a significant stride toward general-purpose AI.
However, a fundamental question remains unanswered by existing benchmarks: does
this architectural unification actually enable synergetic interaction between
the constituent capabilities? Existing evaluation paradigms, which primarily
assess understanding and generation in isolation, are insufficient for
determining whether a unified model can leverage its understanding to enhance
its generation, or use generative simulation to facilitate deeper
comprehension. To address this critical gap, we introduce RealUnify, a
benchmark specifically designed to evaluate bidirectional capability synergy.
RealUnify comprises 1,000 meticulously human-annotated instances spanning 10
categories and 32 subtasks. It is structured around two core axes: 1)
Understanding Enhances Generation, which requires reasoning (e.g., commonsense,
logic) to guide image generation, and 2) Generation Enhances Understanding,
which necessitates mental simulation or reconstruction (e.g., of transformed or
disordered visual inputs) to solve reasoning tasks. A key contribution is our
dual-evaluation protocol, which combines direct end-to-end assessment with a
diagnostic stepwise evaluation that decomposes tasks into distinct
understanding and generation phases. This protocol allows us to precisely
discern whether performance bottlenecks stem from deficiencies in core
abilities or from a failure to integrate them. Through large-scale evaluations
of 12 leading unified models and 6 specialized baselines, we find that current
unified models still struggle to achieve effective synergy, indicating that
architectural unification alone is insufficient. These results highlight the
need for new training strategies and inductive biases to fully unlock the
potential of unified modeling.