ChatPaper.aiChatPaper

RealUnify : Les modèles unifiés tirent-ils véritablement profit de l'unification ? Un benchmark complet

RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

September 29, 2025
papers.authors: Yang Shi, Yuhao Dong, Yue Ding, Yuran Wang, Xuanyu Zhu, Sheng Zhou, Wenting Liu, Haochen Tian, Rundong Wang, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang, Wenjing Yang, Yuanxing Zhang, Pengfei Wan, Yi-Fan Zhang, Ziwei Liu
cs.AI

papers.abstract

L'intégration de la compréhension et de la génération visuelles dans des modèles multimodaux unifiés représente un pas significatif vers une IA à usage général. Cependant, une question fondamentale reste sans réponse par les benchmarks existants : cette unification architecturale permet-elle réellement une interaction synergique entre les capacités constitutives ? Les paradigmes d'évaluation actuels, qui évaluent principalement la compréhension et la génération de manière isolée, sont insuffisants pour déterminer si un modèle unifié peut exploiter sa compréhension pour améliorer sa génération, ou utiliser la simulation générative pour faciliter une compréhension plus profonde. Pour combler cette lacune critique, nous introduisons RealUnify, un benchmark spécifiquement conçu pour évaluer la synergie bidirectionnelle des capacités. RealUnify comprend 1 000 instances méticuleusement annotées par des humains, couvrant 10 catégories et 32 sous-tâches. Il est structuré autour de deux axes principaux : 1) La Compréhension Améliore la Génération, qui nécessite un raisonnement (par exemple, de bon sens, logique) pour guider la génération d'images, et 2) La Génération Améliore la Compréhension, qui nécessite une simulation ou une reconstruction mentale (par exemple, d'entrées visuelles transformées ou désordonnées) pour résoudre des tâches de raisonnement. Une contribution clé est notre protocole d'évaluation dual, qui combine une évaluation directe de bout en bout avec une évaluation diagnostique étape par étape qui décompose les tâches en phases distinctes de compréhension et de génération. Ce protocole nous permet de discerner précisément si les goulots d'étranglement de performance proviennent de déficiences dans les capacités de base ou d'un échec à les intégrer. À travers des évaluations à grande échelle de 12 modèles unifiés leaders et de 6 baselines spécialisées, nous constatons que les modèles unifiés actuels ont encore du mal à atteindre une synergie efficace, indiquant que l'unification architecturale seule est insuffisante. Ces résultats mettent en évidence la nécessité de nouvelles stratégies d'entraînement et de biais inductifs pour débloquer pleinement le potentiel de la modélisation unifiée.
English
The integration of visual understanding and generation into unified multimodal models represents a significant stride toward general-purpose AI. However, a fundamental question remains unanswered by existing benchmarks: does this architectural unification actually enable synergetic interaction between the constituent capabilities? Existing evaluation paradigms, which primarily assess understanding and generation in isolation, are insufficient for determining whether a unified model can leverage its understanding to enhance its generation, or use generative simulation to facilitate deeper comprehension. To address this critical gap, we introduce RealUnify, a benchmark specifically designed to evaluate bidirectional capability synergy. RealUnify comprises 1,000 meticulously human-annotated instances spanning 10 categories and 32 subtasks. It is structured around two core axes: 1) Understanding Enhances Generation, which requires reasoning (e.g., commonsense, logic) to guide image generation, and 2) Generation Enhances Understanding, which necessitates mental simulation or reconstruction (e.g., of transformed or disordered visual inputs) to solve reasoning tasks. A key contribution is our dual-evaluation protocol, which combines direct end-to-end assessment with a diagnostic stepwise evaluation that decomposes tasks into distinct understanding and generation phases. This protocol allows us to precisely discern whether performance bottlenecks stem from deficiencies in core abilities or from a failure to integrate them. Through large-scale evaluations of 12 leading unified models and 6 specialized baselines, we find that current unified models still struggle to achieve effective synergy, indicating that architectural unification alone is insufficient. These results highlight the need for new training strategies and inductive biases to fully unlock the potential of unified modeling.
PDF412September 30, 2025