GRADE : Évaluation comparative du raisonnement disciplinaire dans l'édition d'image

Résumé

Les modèles multimodaux unifiés visent une compréhension, un raisonnement et une génération conjoints, mais les benchmarks actuels en édition d'image se limitent largement aux images naturelles et à un raisonnement de bon sens superficiel, offrant une évaluation limitée de cette capacité sous des contraintes structurées et spécifiques à un domaine. Dans ce travail, nous présentons GRADE, le premier benchmark conçu pour évaluer les connaissances et le raisonnement disciplinaires en édition d'image. GRADE comprend 520 échantillons soigneusement sélectionnés couvrant 10 domaines académiques, des sciences naturelles aux sciences sociales. Pour supporter une évaluation rigoureuse, nous proposons un protocole d'évaluation multidimensionnel qui évalue conjointement le Raisonnement Disciplinaire, la Cohérence Visuelle et la Lisibilité Logique. Des expériences approfondies sur 20 modèles open-source et propriétaires de pointe révèlent des limitations substantielles des modèles actuels dans des contextes d'édition implicites et riches en connaissances, entraînant d'importants écarts de performance. Au-delà des scores quantitatifs, nous menons des analyses et ablations rigoureuses pour exposer les lacunes des modèles et identifier les contraintes propres à l'édition disciplinaire. GRADE identifie ainsi des directions clés pour le développement futur des modèles multimodaux unifiés, faisant progresser la recherche sur l'édition d'image et le raisonnement fondés sur les disciplines. Notre benchmark et notre code d'évaluation sont publiquement disponibles.

English

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.

GRADE : Évaluation comparative du raisonnement disciplinaire dans l'édition d'image

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Résumé

Support