KRIS-Bench: Evaluación de Modelos de Edición de Imágenes de Próxima Generación
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
May 22, 2025
Autores: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI
Resumen
Los recientes avances en los modelos generativos multimodales han permitido un progreso significativo en la edición de imágenes basada en instrucciones. Sin embargo, aunque estos modelos producen resultados visualmente plausibles, su capacidad para tareas de edición basadas en razonamiento de conocimiento sigue siendo poco explorada. En este artículo, presentamos KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), un punto de referencia diagnóstico diseñado para evaluar modelos a través de una lente cognitivamente informada. Basándonos en la teoría educativa, KRIS-Bench categoriza las tareas de edición en tres tipos fundamentales de conocimiento: factual, conceptual y procedimental. A partir de esta taxonomía, diseñamos 22 tareas representativas que abarcan 7 dimensiones de razonamiento y publicamos 1,267 instancias de edición anotadas de alta calidad. Para apoyar una evaluación detallada, proponemos un protocolo integral que incorpora una nueva métrica de Plausibilidad de Conocimiento, mejorada con pistas de conocimiento y calibrada mediante estudios humanos. Los resultados empíricos en 10 modelos de última generación revelan brechas significativas en el rendimiento del razonamiento, destacando la necesidad de puntos de referencia centrados en el conocimiento para avanzar en el desarrollo de sistemas inteligentes de edición de imágenes.
English
Recent advances in multi-modal generative models have enabled significant
progress in instruction-based image editing. However, while these models
produce visually plausible outputs, their capacity for knowledge-based
reasoning editing tasks remains under-explored. In this paper, we introduce
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a
diagnostic benchmark designed to assess models through a cognitively informed
lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks
across three foundational knowledge types: Factual, Conceptual, and Procedural.
Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning
dimensions and release 1,267 high-quality annotated editing instances. To
support fine-grained evaluation, we propose a comprehensive protocol that
incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints
and calibrated through human studies. Empirical results on 10 state-of-the-art
models reveal significant gaps in reasoning performance, highlighting the need
for knowledge-centric benchmarks to advance the development of intelligent
image editing systems.Summary
AI-Generated Summary