KRIS-Bench: Benchmarking per Modelli di Editing Immagine di Nuova Generazione
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
May 22, 2025
Autori: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI
Abstract
I recenti progressi nei modelli generativi multimodali hanno permesso significativi avanzamenti nell'editing di immagini basato su istruzioni. Tuttavia, sebbene questi modelli producano risultati visivamente plausibili, la loro capacità di eseguire task di editing basati sul ragionamento conoscitivo rimane poco esplorata. In questo articolo, introduciamo KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), un benchmark diagnostico progettato per valutare i modelli attraverso una lente cognitivamente informata. Attingendo dalla teoria educativa, KRIS-Bench categorizza i task di editing in tre tipologie fondamentali di conoscenza: Fattuale, Concettuale e Procedurale. Basandoci su questa tassonomia, progettiamo 22 task rappresentativi che coprono 7 dimensioni di ragionamento e rilasciamo 1.267 istanze di editing annotate di alta qualità. Per supportare una valutazione granulare, proponiamo un protocollo completo che incorpora una nuova metrica di Plausibilità della Conoscenza, potenziata da suggerimenti conoscitivi e calibrata attraverso studi umani. I risultati empirici su 10 modelli all'avanguardia rivelano significative lacune nelle prestazioni di ragionamento, evidenziando la necessità di benchmark centrati sulla conoscenza per far progredire lo sviluppo di sistemi intelligenti di editing delle immagini.
English
Recent advances in multi-modal generative models have enabled significant
progress in instruction-based image editing. However, while these models
produce visually plausible outputs, their capacity for knowledge-based
reasoning editing tasks remains under-explored. In this paper, we introduce
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a
diagnostic benchmark designed to assess models through a cognitively informed
lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks
across three foundational knowledge types: Factual, Conceptual, and Procedural.
Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning
dimensions and release 1,267 high-quality annotated editing instances. To
support fine-grained evaluation, we propose a comprehensive protocol that
incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints
and calibrated through human studies. Empirical results on 10 state-of-the-art
models reveal significant gaps in reasoning performance, highlighting the need
for knowledge-centric benchmarks to advance the development of intelligent
image editing systems.