GRADE: Valutazione del Ragionamento Informato dalla Disciplina nell'Editing di Immagini

Abstract

I modelli multimodali unificati mirano alla comprensione, al ragionamento e alla generazione congiunti, ma gli attuali benchmark per l'editing di immagini sono per lo più confinati a immagini naturali e a un ragionamento di senso comune superficiale, offrendo una valutazione limitata di questa capacità sotto vincoli strutturati e specifici di dominio. In questo lavoro, introduciamo GRADE, il primo benchmark progettato per valutare la conoscenza e il ragionamento informati dalla disciplina nell'editing di immagini. GRADE comprende 520 campioni accuratamente curati, distribuiti in 10 domini accademici che spaziano dalle scienze naturali alle scienze sociali. Per supportare una valutazione rigorosa, proponiamo un protocollo di valutazione multidimensionale che valuta congiuntamente il Ragionamento Disciplinare, la Coerenza Visiva e la Leggibilità Logica. Esperimenti estesi su 20 modelli all'avanguardia, open-source e closed-source, rivelano limitazioni sostanziali nei modelli attuali in contesti di editing impliciti e ad alta intensità di conoscenza, che portano a grandi divari prestazionali. Oltre ai punteggi quantitativi, conduciamo analisi e ablazioni rigorose per evidenziare le carenze dei modelli e identificare i vincoli all'interno dell'editing disciplinare. Nel complesso, GRADE individua le direzioni chiave per lo sviluppo futuro dei modelli multimodali unificati, avanzando la ricerca sull'editing di immagini e sul ragionamento informati dalla disciplina. Il nostro benchmark e il codice di valutazione sono rilasciati pubblicamente.

English

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.

GRADE: Valutazione del Ragionamento Informato dalla Disciplina nell'Editing di Immagini

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Abstract

Support