GRADE: Benchmarking disziplinengestützten Denkens in der Bildbearbeitung

Zusammenfassung

Unifizierte multimodale Modelle zielen auf gemeinsames Verständnis, Schlussfolgern und Generieren ab, doch aktuelle Bildbearbeitungs-Benchmarks beschränken sich weitgehend auf natürliche Bilder und oberflächliches Alltagsverständnis, was nur eine begrenzte Bewertung dieser Fähigkeit unter strukturierten, domänenspezifischen Einschränkungen ermöglicht. In dieser Arbeit stellen wir GRADE vor, den ersten Benchmark zur Bewertung von disziplingestütztem Wissen und Schlussfolgerungen in der Bildbearbeitung. GRADE umfasst 520 sorgfältig kuratierte Beispiele aus 10 akademischen Domänen, die von Naturwissenschaften bis zu Sozialwissenschaften reichen. Zur Unterstützung einer rigorosen Evaluation schlagen wir ein mehrdimensionales Bewertungsprotokoll vor, das gleichzeitig Fachliches Schlussfolgern, Visuelle Konsistenz und Logische Nachvollziehbarkeit beurteilt. Umfangreiche Experimente mit 20 state-of-the-art Open-Source- und Closed-Source-Modellen zeigen erhebliche Einschränkungen aktueller Modelle in impliziten, wissensintensiven Bearbeitungsszenarien auf, was zu großen Leistungslücken führt. Über quantitative Scores hinaus führen wir rigorose Analysen und Ablationen durch, um Modellschwächen aufzudecken und die Grenzen disziplinärer Bearbeitung zu identifizieren. GRADE weist gemeinsam zentrale Richtungen für die zukünftige Entwicklung unifizierter multimodaler Modelle auf und fördert die Forschung zu disziplingestützter Bildbearbeitung und Schlussfolgerung. Unser Benchmark und Evaluationscode sind öffentlich verfügbar.

English

Unified multimodal models target joint understanding, reasoning, and generation, but current image editing benchmarks are largely confined to natural images and shallow commonsense reasoning, offering limited assessment of this capability under structured, domain-specific constraints. In this work, we introduce GRADE, the first benchmark to assess discipline-informed knowledge and reasoning in image editing. GRADE comprises 520 carefully curated samples across 10 academic domains, spanning from natural science to social science. To support rigorous evaluation, we propose a multi-dimensional evaluation protocol that jointly assesses Discipline Reasoning, Visual Consistency, and Logical Readability. Extensive experiments on 20 state-of-the-art open-source and closed-source models reveal substantial limitations in current models under implicit, knowledge-intensive editing settings, leading to large performance gaps. Beyond quantitative scores, we conduct rigorous analyses and ablations to expose model shortcomings and identify the constraints within disciplinary editing. Together, GRADE pinpoints key directions for the future development of unified multimodal models, advancing the research on discipline-informed image editing and reasoning. Our benchmark and evaluation code are publicly released.

GRADE: Benchmarking disziplinengestützten Denkens in der Bildbearbeitung

GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Zusammenfassung

Support