RealUnify: I Modelli Unificati Traggono Vero Vantaggio dall'Unificazione? Un Benchmark Completo
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark
September 29, 2025
Autori: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu
cs.AI
Abstract
L'integrazione della comprensione e generazione visiva in modelli multimodali unificati rappresenta un significativo passo avanti verso l'intelligenza artificiale a scopo generale. Tuttavia, una domanda fondamentale rimane senza risposta dai benchmark esistenti: questa unificazione architetturale consente effettivamente un'interazione sinergica tra le capacità costituenti? I paradigmi di valutazione attuali, che valutano principalmente la comprensione e la generazione in modo isolato, sono insufficienti per determinare se un modello unificato possa sfruttare la sua comprensione per migliorare la generazione, o utilizzare la simulazione generativa per facilitare una comprensione più profonda. Per colmare questa lacuna critica, introduciamo RealUnify, un benchmark progettato specificamente per valutare la sinergia bidirezionale delle capacità. RealUnify comprende 1.000 istanze meticolosamente annotate da esseri umani, che coprono 10 categorie e 32 sottotask. È strutturato attorno a due assi principali: 1) La Comprensione Migliora la Generazione, che richiede ragionamento (ad esempio, buonsenso, logica) per guidare la generazione di immagini, e 2) La Generazione Migliora la Comprensione, che necessita di simulazione mentale o ricostruzione (ad esempio, di input visivi trasformati o disordinati) per risolvere task di ragionamento. Un contributo chiave è il nostro protocollo di valutazione duale, che combina una valutazione end-to-end diretta con una valutazione diagnostica passo-passo che scompone i task in fasi distinte di comprensione e generazione. Questo protocollo ci permette di discernere con precisione se i colli di bottiglia delle prestazioni derivano da carenze nelle capacità fondamentali o da un fallimento nell'integrarle. Attraverso valutazioni su larga scala di 12 modelli unificati leader e 6 baseline specializzati, scopriamo che i modelli unificati attuali faticano ancora a raggiungere una sinergia efficace, indicando che la sola unificazione architetturale è insufficiente. Questi risultati evidenziano la necessità di nuove strategie di addestramento e bias induttivi per sbloccare appieno il potenziale della modellazione unificata.
English
The integration of visual understanding and generation into unified
multimodal models represents a significant stride toward general-purpose AI.
However, a fundamental question remains unanswered by existing benchmarks: does
this architectural unification actually enable synergetic interaction between
the constituent capabilities? Existing evaluation paradigms, which primarily
assess understanding and generation in isolation, are insufficient for
determining whether a unified model can leverage its understanding to enhance
its generation, or use generative simulation to facilitate deeper
comprehension. To address this critical gap, we introduce RealUnify, a
benchmark specifically designed to evaluate bidirectional capability synergy.
RealUnify comprises 1,000 meticulously human-annotated instances spanning 10
categories and 32 subtasks. It is structured around two core axes: 1)
Understanding Enhances Generation, which requires reasoning (e.g., commonsense,
logic) to guide image generation, and 2) Generation Enhances Understanding,
which necessitates mental simulation or reconstruction (e.g., of transformed or
disordered visual inputs) to solve reasoning tasks. A key contribution is our
dual-evaluation protocol, which combines direct end-to-end assessment with a
diagnostic stepwise evaluation that decomposes tasks into distinct
understanding and generation phases. This protocol allows us to precisely
discern whether performance bottlenecks stem from deficiencies in core
abilities or from a failure to integrate them. Through large-scale evaluations
of 12 leading unified models and 6 specialized baselines, we find that current
unified models still struggle to achieve effective synergy, indicating that
architectural unification alone is insufficient. These results highlight the
need for new training strategies and inductive biases to fully unlock the
potential of unified modeling.