KRIS-Bench : Évaluation des modèles de nouvelle génération pour l'édition intelligente d'images
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
May 22, 2025
Auteurs: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI
Résumé
Les récents progrès dans les modèles génératifs multi-modaux ont permis des avancées significatives dans l'édition d'images basée sur des instructions. Cependant, bien que ces modèles produisent des résultats visuellement plausibles, leur capacité à effectuer des tâches d'édition basées sur le raisonnement et les connaissances reste peu explorée. Dans cet article, nous présentons KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), un benchmark diagnostique conçu pour évaluer les modèles à travers une perspective cognitivement informée. S'inspirant de la théorie éducative, KRIS-Bench catégorise les tâches d'édition selon trois types fondamentaux de connaissances : Factuelle, Conceptuelle et Procédurale. Sur la base de cette taxonomie, nous concevons 22 tâches représentatives couvrant 7 dimensions de raisonnement et publions 1 267 instances d'édition annotées de haute qualité. Pour soutenir une évaluation fine, nous proposons un protocole complet qui intègre une nouvelle métrique de Plausibilité des Connaissances, enrichie par des indices de connaissances et calibrée à travers des études humaines. Les résultats empiriques sur 10 modèles de pointe révèlent des lacunes significatives dans les performances de raisonnement, soulignant la nécessité de benchmarks centrés sur les connaissances pour faire progresser le développement de systèmes intelligents d'édition d'images.
English
Recent advances in multi-modal generative models have enabled significant
progress in instruction-based image editing. However, while these models
produce visually plausible outputs, their capacity for knowledge-based
reasoning editing tasks remains under-explored. In this paper, we introduce
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a
diagnostic benchmark designed to assess models through a cognitively informed
lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks
across three foundational knowledge types: Factual, Conceptual, and Procedural.
Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning
dimensions and release 1,267 high-quality annotated editing instances. To
support fine-grained evaluation, we propose a comprehensive protocol that
incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints
and calibrated through human studies. Empirical results on 10 state-of-the-art
models reveal significant gaps in reasoning performance, highlighting the need
for knowledge-centric benchmarks to advance the development of intelligent
image editing systems.Summary
AI-Generated Summary