KRIS-Bench: Benchmarking der nächsten Generation intelligenter Bildbearbeitungsmodelle
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
May 22, 2025
Autoren: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI
Zusammenfassung
Jüngste Fortschritte in multimodalen generativen Modellen haben bedeutende Fortschritte bei der instruktionsbasierten Bildbearbeitung ermöglicht. Während diese Modelle jedoch visuell plausible Ergebnisse liefern, bleibt ihre Fähigkeit zur Bearbeitung von Aufgaben, die wissensbasiertes Denken erfordern, weitgehend unerforscht. In diesem Artikel stellen wir KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark) vor, einen diagnostischen Benchmark, der darauf abzielt, Modelle durch eine kognitiv informierte Linse zu bewerten. Basierend auf der Bildungstheorie kategorisiert KRIS-Bench Bearbeitungsaufgaben in drei grundlegende Wissensarten: Faktisches, Konzeptuelles und Prozedurales. Auf Grundlage dieser Taxonomie entwerfen wir 22 repräsentative Aufgaben, die 7 Denkdimensionen abdecken, und veröffentlichen 1.267 hochwertig annotierte Bearbeitungsinstanzen. Um eine detaillierte Bewertung zu unterstützen, schlagen wir ein umfassendes Protokoll vor, das eine neuartige Metrik zur Wissensplausibilität integriert, durch Wissenshinweise erweitert und durch menschliche Studien kalibriert wird. Empirische Ergebnisse von 10 state-of-the-art Modellen zeigen erhebliche Lücken in der Denkleistung auf und unterstreichen die Notwendigkeit von wissenszentrierten Benchmarks, um die Entwicklung intelligenter Bildbearbeitungssysteme voranzutreiben.
English
Recent advances in multi-modal generative models have enabled significant
progress in instruction-based image editing. However, while these models
produce visually plausible outputs, their capacity for knowledge-based
reasoning editing tasks remains under-explored. In this paper, we introduce
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a
diagnostic benchmark designed to assess models through a cognitively informed
lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks
across three foundational knowledge types: Factual, Conceptual, and Procedural.
Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning
dimensions and release 1,267 high-quality annotated editing instances. To
support fine-grained evaluation, we propose a comprehensive protocol that
incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints
and calibrated through human studies. Empirical results on 10 state-of-the-art
models reveal significant gaps in reasoning performance, highlighting the need
for knowledge-centric benchmarks to advance the development of intelligent
image editing systems.Summary
AI-Generated Summary