ChatPaper.aiChatPaper

KRIS-Bench: Benchmarking van de Nieuwe Generatie Intelligente Beeldbewerkingsmodellen

KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models

May 22, 2025
Auteurs: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI

Samenvatting

Recente vooruitgang in multimodale generatieve modellen heeft aanzienlijke vooruitgang mogelijk gemaakt in instructiegebaseerde beeldbewerking. Hoewel deze modellen visueel plausibele resultaten produceren, blijft hun vermogen voor kennisgebaseerde redeneertaken bij beeldbewerking onderbelicht. In dit artikel introduceren we KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), een diagnostische benchmark ontworpen om modellen te evalueren door een cognitief geïnformeerde bril. Gebaseerd op onderwijstheorie categoriseert KRIS-Bench bewerkingstaken in drie fundamentele kennissoorten: Feitelijk, Conceptueel en Procedureel. Op basis van deze taxonomie ontwerpen we 22 representatieve taken die 7 redeneerdimensies beslaan en publiceren we 1.267 hoogwaardig geannoteerde bewerkingsinstanties. Om een gedetailleerde evaluatie te ondersteunen, stellen we een uitgebreid protocol voor dat een nieuwe Knowledge Plausibility-metric integreert, versterkt door kennishints en gekalibreerd via menselijke studies. Empirische resultaten op 10 state-of-the-art modellen onthullen aanzienlijke tekortkomingen in redeneerprestaties, wat de noodzaak aantoont van kennisgerichte benchmarks om de ontwikkeling van intelligente beeldbewerkingssystemen te bevorderen.
English
Recent advances in multi-modal generative models have enabled significant progress in instruction-based image editing. However, while these models produce visually plausible outputs, their capacity for knowledge-based reasoning editing tasks remains under-explored. In this paper, we introduce KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a diagnostic benchmark designed to assess models through a cognitively informed lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks across three foundational knowledge types: Factual, Conceptual, and Procedural. Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning dimensions and release 1,267 high-quality annotated editing instances. To support fine-grained evaluation, we propose a comprehensive protocol that incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints and calibrated through human studies. Empirical results on 10 state-of-the-art models reveal significant gaps in reasoning performance, highlighting the need for knowledge-centric benchmarks to advance the development of intelligent image editing systems.
PDF452May 23, 2025