RealUnify: Действительно ли унифицированные модели выигрывают от унификации? Всесторонний бенчмарк

Аннотация

Интеграция визуального понимания и генерации в унифицированные мультимодальные модели представляет собой значительный шаг на пути к созданию универсального искусственного интеллекта. Однако фундаментальный вопрос, остающийся без ответа в существующих тестах, заключается в следующем: действительно ли такая архитектурная унификация способствует синергетическому взаимодействию между составляющими возможностями? Существующие парадигмы оценки, которые в основном тестируют понимание и генерацию изолированно, недостаточны для определения того, может ли унифицированная модель использовать свое понимание для улучшения генерации или применять генеративное моделирование для углубления понимания. Чтобы устранить этот критический пробел, мы представляем RealUnify — тестовый набор, специально разработанный для оценки двунаправленной синергии возможностей. RealUnify включает 1000 тщательно аннотированных человеком примеров, охватывающих 10 категорий и 32 подзадачи. Он структурирован вокруг двух основных осей: 1) «Понимание улучшает генерацию», где требуется использование рассуждений (например, здравого смысла, логики) для управления генерацией изображений, и 2) «Генерация улучшает понимание», где необходимо мысленное моделирование или реконструкция (например, преобразованных или нарушенных визуальных данных) для решения задач на рассуждение. Ключевым вкладом является наш двойной протокол оценки, который сочетает прямое сквозное тестирование с диагностическим пошаговым анализом, разбивающим задачи на отдельные этапы понимания и генерации. Этот протокол позволяет точно определить, связаны ли узкие места в производительности с недостатками в базовых возможностях или с неспособностью их интегрировать. В результате масштабной оценки 12 ведущих унифицированных моделей и 6 специализированных базовых моделей мы обнаружили, что современные унифицированные модели все еще испытывают трудности с достижением эффективной синергии, что указывает на недостаточность одной лишь архитектурной унификации. Эти результаты подчеркивают необходимость новых стратегий обучения и индуктивных смещений для полного раскрытия потенциала унифицированного моделирования.

English

The integration of visual understanding and generation into unified multimodal models represents a significant stride toward general-purpose AI. However, a fundamental question remains unanswered by existing benchmarks: does this architectural unification actually enable synergetic interaction between the constituent capabilities? Existing evaluation paradigms, which primarily assess understanding and generation in isolation, are insufficient for determining whether a unified model can leverage its understanding to enhance its generation, or use generative simulation to facilitate deeper comprehension. To address this critical gap, we introduce RealUnify, a benchmark specifically designed to evaluate bidirectional capability synergy. RealUnify comprises 1,000 meticulously human-annotated instances spanning 10 categories and 32 subtasks. It is structured around two core axes: 1) Understanding Enhances Generation, which requires reasoning (e.g., commonsense, logic) to guide image generation, and 2) Generation Enhances Understanding, which necessitates mental simulation or reconstruction (e.g., of transformed or disordered visual inputs) to solve reasoning tasks. A key contribution is our dual-evaluation protocol, which combines direct end-to-end assessment with a diagnostic stepwise evaluation that decomposes tasks into distinct understanding and generation phases. This protocol allows us to precisely discern whether performance bottlenecks stem from deficiencies in core abilities or from a failure to integrate them. Through large-scale evaluations of 12 leading unified models and 6 specialized baselines, we find that current unified models still struggle to achieve effective synergy, indicating that architectural unification alone is insufficient. These results highlight the need for new training strategies and inductive biases to fully unlock the potential of unified modeling.