KRIS-Bench: Benchmarking van de Nieuwe Generatie Intelligente Beeldbewerkingsmodellen
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
May 22, 2025
Auteurs: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI
Samenvatting
Recente vooruitgang in multimodale generatieve modellen heeft aanzienlijke
vooruitgang mogelijk gemaakt in instructiegebaseerde beeldbewerking. Hoewel deze modellen
visueel plausibele resultaten produceren, blijft hun vermogen voor kennisgebaseerde
redeneertaken bij beeldbewerking onderbelicht. In dit artikel introduceren we
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), een
diagnostische benchmark ontworpen om modellen te evalueren door een cognitief geïnformeerde
bril. Gebaseerd op onderwijstheorie categoriseert KRIS-Bench bewerkingstaken
in drie fundamentele kennissoorten: Feitelijk, Conceptueel en Procedureel.
Op basis van deze taxonomie ontwerpen we 22 representatieve taken die 7 redeneerdimensies
beslaan en publiceren we 1.267 hoogwaardig geannoteerde bewerkingsinstanties. Om
een gedetailleerde evaluatie te ondersteunen, stellen we een uitgebreid protocol voor dat
een nieuwe Knowledge Plausibility-metric integreert, versterkt door kennishints
en gekalibreerd via menselijke studies. Empirische resultaten op 10 state-of-the-art
modellen onthullen aanzienlijke tekortkomingen in redeneerprestaties, wat de noodzaak
aantoont van kennisgerichte benchmarks om de ontwikkeling van intelligente
beeldbewerkingssystemen te bevorderen.
English
Recent advances in multi-modal generative models have enabled significant
progress in instruction-based image editing. However, while these models
produce visually plausible outputs, their capacity for knowledge-based
reasoning editing tasks remains under-explored. In this paper, we introduce
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a
diagnostic benchmark designed to assess models through a cognitively informed
lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks
across three foundational knowledge types: Factual, Conceptual, and Procedural.
Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning
dimensions and release 1,267 high-quality annotated editing instances. To
support fine-grained evaluation, we propose a comprehensive protocol that
incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints
and calibrated through human studies. Empirical results on 10 state-of-the-art
models reveal significant gaps in reasoning performance, highlighting the need
for knowledge-centric benchmarks to advance the development of intelligent
image editing systems.