RealUnify: Hebben geünificeerde modellen werkelijk baat bij unificatie? Een uitgebreide benchmark
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
September 29, 2025
Auteurs: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu
cs.AI
Samenvatting
De integratie van visueel begrip en generatie in geünificeerde multimodale modellen vertegenwoordigt een belangrijke stap in de richting van algemeen toepasbare AI. Een fundamentele vraag blijft echter onbeantwoord door bestaande benchmarks: maakt deze architectonische unificatie daadwerkelijk synergetische interactie mogelijk tussen de samenstellende capaciteiten? Bestaande evaluatieparadigma's, die voornamelijk begrip en generatie afzonderlijk beoordelen, zijn onvoldoende om te bepalen of een geünificeerd model zijn begrip kan benutten om zijn generatie te verbeteren, of generatieve simulatie kan gebruiken om een dieper inzicht te vergemakkelijken. Om dit kritieke gat te dichten, introduceren we RealUnify, een benchmark die specifiek is ontworpen om bidirectionele capaciteitssynergie te evalueren. RealUnify bestaat uit 1.000 zorgvuldig door mensen geannoteerde instanties, verdeeld over 10 categorieën en 32 subtaken. Het is gestructureerd rond twee kernassen: 1) Begrip Verbetert Generatie, wat redenering vereist (bijv. gezond verstand, logica) om beeldgeneratie te sturen, en 2) Generatie Verbetert Begrip, wat mentale simulatie of reconstructie vereist (bijv. van getransformeerde of verstoorde visuele inputs) om redeneertaken op te lossen. Een belangrijke bijdrage is ons dubbele evaluatieprotocol, dat directe end-to-end beoordeling combineert met een diagnostische stapsgewijze evaluatie die taken ontleedt in afzonderlijke begrips- en generatiefasen. Dit protocol stelt ons in staat om precies te bepalen of prestatieknelpunten voortkomen uit tekortkomingen in kerncapaciteiten of uit een gebrek aan integratie daarvan. Door grootschalige evaluaties van 12 toonaangevende geünificeerde modellen en 6 gespecialiseerde baselines, constateren we dat huidige geünificeerde modellen nog steeds moeite hebben om effectieve synergie te bereiken, wat aangeeft dat architectonische unificatie alleen niet voldoende is. Deze resultaten benadrukken de noodzaak van nieuwe trainingsstrategieën en inductieve biases om het potentieel van geünificeerd modelleren volledig te ontsluiten.
English
The integration of visual understanding and generation into unified
multimodal models represents a significant stride toward general-purpose AI.
However, a fundamental question remains unanswered by existing benchmarks: does
this architectural unification actually enable synergetic interaction between
the constituent capabilities? Existing evaluation paradigms, which primarily
assess understanding and generation in isolation, are insufficient for
determining whether a unified model can leverage its understanding to enhance
its generation, or use generative simulation to facilitate deeper
comprehension. To address this critical gap, we introduce RealUnify, a
benchmark specifically designed to evaluate bidirectional capability synergy.
RealUnify comprises 1,000 meticulously human-annotated instances spanning 10
categories and 32 subtasks. It is structured around two core axes: 1)
Understanding Enhances Generation, which requires reasoning (e.g., commonsense,
logic) to guide image generation, and 2) Generation Enhances Understanding,
which necessitates mental simulation or reconstruction (e.g., of transformed or
disordered visual inputs) to solve reasoning tasks. A key contribution is our
dual-evaluation protocol, which combines direct end-to-end assessment with a
diagnostic stepwise evaluation that decomposes tasks into distinct
understanding and generation phases. This protocol allows us to precisely
discern whether performance bottlenecks stem from deficiencies in core
abilities or from a failure to integrate them. Through large-scale evaluations
of 12 leading unified models and 6 specialized baselines, we find that current
unified models still struggle to achieve effective synergy, indicating that
architectural unification alone is insufficient. These results highlight the
need for new training strategies and inductive biases to fully unlock the
potential of unified modeling.