RealUnify: Profitieren vereinheitlichte Modelle wirklich von der Vereinheitlichung? Ein umfassender Benchmark
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
September 29, 2025
papers.authors: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu
cs.AI
papers.abstract
Die Integration von visuellem Verständnis und Generierung in vereinheitlichte multimodale Modelle stellt einen bedeutenden Fortschritt in Richtung allgemeiner KI dar. Dennoch bleibt eine grundlegende Frage durch bestehende Benchmarks unbeantwortet: Ermöglicht diese architektonische Vereinheitlichung tatsächlich eine synergetische Interaktion zwischen den einzelnen Fähigkeiten? Bestehende Evaluierungsansätze, die hauptsächlich Verständnis und Generierung isoliert bewerten, sind unzureichend, um zu bestimmen, ob ein vereinheitlichtes Modell sein Verständnis nutzen kann, um seine Generierung zu verbessern, oder ob es generative Simulationen einsetzt, um ein tieferes Verständnis zu fördern. Um diese kritische Lücke zu schließen, führen wir RealUnify ein, einen Benchmark, der speziell zur Bewertung bidirektionaler Fähigkeitssynergie entwickelt wurde. RealUnify umfasst 1.000 sorgfältig von Menschen annotierte Instanzen, die 10 Kategorien und 32 Unteraufgaben abdecken. Er ist um zwei Kernachsen strukturiert: 1) Verständnis verbessert Generierung, was logisches Schlussfolgern (z. B. gesunder Menschenverstand, Logik) erfordert, um die Bildgenerierung zu steuern, und 2) Generierung verbessert Verständnis, was mentale Simulation oder Rekonstruktion (z. B. von transformierten oder ungeordneten visuellen Eingaben) erfordert, um logische Aufgaben zu lösen. Ein wesentlicher Beitrag ist unser duales Evaluierungsprotokoll, das eine direkte End-to-End-Bewertung mit einer diagnostischen schrittweisen Bewertung kombiniert, die Aufgaben in separate Verständnis- und Generierungsphasen zerlegt. Dieses Protokoll ermöglicht es uns, genau zu erkennen, ob Leistungsengpässe auf Defizite in den Kernfähigkeiten oder auf ein Scheitern bei deren Integration zurückzuführen sind. Durch groß angelegte Bewertungen von 12 führenden vereinheitlichten Modellen und 6 spezialisierten Baselines stellen wir fest, dass aktuelle vereinheitlichte Modelle immer noch Schwierigkeiten haben, eine effektive Synergie zu erreichen, was darauf hindeutet, dass die architektonische Vereinheitlichung allein nicht ausreicht. Diese Ergebnisse unterstreichen die Notwendigkeit neuer Trainingsstrategien und induktiver Verzerrungen, um das Potenzial vereinheitlichter Modellierung vollständig zu erschließen.
English
The integration of visual understanding and generation into unified
multimodal models represents a significant stride toward general-purpose AI.
However, a fundamental question remains unanswered by existing benchmarks: does
this architectural unification actually enable synergetic interaction between
the constituent capabilities? Existing evaluation paradigms, which primarily
assess understanding and generation in isolation, are insufficient for
determining whether a unified model can leverage its understanding to enhance
its generation, or use generative simulation to facilitate deeper
comprehension. To address this critical gap, we introduce RealUnify, a
benchmark specifically designed to evaluate bidirectional capability synergy.
RealUnify comprises 1,000 meticulously human-annotated instances spanning 10
categories and 32 subtasks. It is structured around two core axes: 1)
Understanding Enhances Generation, which requires reasoning (e.g., commonsense,
logic) to guide image generation, and 2) Generation Enhances Understanding,
which necessitates mental simulation or reconstruction (e.g., of transformed or
disordered visual inputs) to solve reasoning tasks. A key contribution is our
dual-evaluation protocol, which combines direct end-to-end assessment with a
diagnostic stepwise evaluation that decomposes tasks into distinct
understanding and generation phases. This protocol allows us to precisely
discern whether performance bottlenecks stem from deficiencies in core
abilities or from a failure to integrate them. Through large-scale evaluations
of 12 leading unified models and 6 specialized baselines, we find that current
unified models still struggle to achieve effective synergy, indicating that
architectural unification alone is insufficient. These results highlight the
need for new training strategies and inductive biases to fully unlock the
potential of unified modeling.