GRADE: Discipline-geïnformeerde redeneervaardigheden benchmarken in beeldbewerking

Samenvatting

Unified multimodale modellen streven naar gezamenlijk begrip, redeneren en genereren, maar huidige beeldbewerkingsbenchmarks zijn grotendeels beperkt tot natuurlijke afbeeldingen en oppervlakkig gezond verstand redeneren, wat een beperkte beoordeling biedt van deze capaciteit onder gestructureerde, domeinspecifieke beperkingen. In dit werk introduceren we GRADE, de eerste benchmark om discipline-gestuurde kennis en redeneren bij beeldbewerking te beoordelen. GRADE omvat 520 zorgvuldig samengestelde samples verspreid over 10 academische domeinen, van natuurwetenschappen tot sociale wetenschappen. Om rigoureuze evaluatie te ondersteunen, stellen we een multidimensionaal evaluatieprotocol voor dat Disciplineel Redeneren, Visuele Consistentie en Logische Leesbaarheid gezamenlijk beoordeelt. Uitgebreide experimenten met 20 state-of-the-art open-source en closed-source modellen onthullen aanzienlijke beperkingen in huidige modellen onder impliciete, kennisintensieve bewerkingsinstellingen, wat leidt tot grote prestatiekloof. Naast kwantitatieve scores voeren we grondige analyses en ablatiestudies uit om modeltekortkomingen bloot te leggen en de beperkingen binnen disciplinair bewerken te identificeren. GRADE wijst zo cruciale richtingen aan voor de toekomstige ontwikkeling van unified multimodale modellen, en bevordert het onderzoek naar discipline-gestuurde beeldbewerking en redenering. Onze benchmark en evaluatiecode zijn openbaar vrijgegeven.

English

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.

GRADE: Discipline-geïnformeerde redeneervaardigheden benchmarken in beeldbewerking

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Samenvatting

Support