KRIS-Bench: Avaliando Modelos de Edição de Imagens Inteligentes de Próxima Geração
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
May 22, 2025
Autores: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI
Resumo
Os recentes avanços em modelos generativos multimodais possibilitaram progressos significativos na edição de imagens baseada em instruções. No entanto, embora esses modelos produzam resultados visualmente plausíveis, sua capacidade para tarefas de edição baseadas em raciocínio de conhecimento permanece pouco explorada. Neste artigo, apresentamos o KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), um benchmark diagnóstico projetado para avaliar modelos por meio de uma perspectiva cognitivamente informada. Inspirado na teoria educacional, o KRIS-Bench categoriza tarefas de edição em três tipos fundamentais de conhecimento: Fático, Conceitual e Procedimental. Com base nessa taxonomia, projetamos 22 tarefas representativas abrangendo 7 dimensões de raciocínio e disponibilizamos 1.267 instâncias de edição anotadas de alta qualidade. Para apoiar uma avaliação detalhada, propomos um protocolo abrangente que incorpora uma nova métrica de Plausibilidade de Conhecimento, aprimorada por dicas de conhecimento e calibrada por meio de estudos humanos. Resultados empíricos em 10 modelos de última geração revelam lacunas significativas no desempenho de raciocínio, destacando a necessidade de benchmarks centrados em conhecimento para avançar o desenvolvimento de sistemas inteligentes de edição de imagens.
English
Recent advances in multi-modal generative models have enabled significant
progress in instruction-based image editing. However, while these models
produce visually plausible outputs, their capacity for knowledge-based
reasoning editing tasks remains under-explored. In this paper, we introduce
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a
diagnostic benchmark designed to assess models through a cognitively informed
lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks
across three foundational knowledge types: Factual, Conceptual, and Procedural.
Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning
dimensions and release 1,267 high-quality annotated editing instances. To
support fine-grained evaluation, we propose a comprehensive protocol that
incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints
and calibrated through human studies. Empirical results on 10 state-of-the-art
models reveal significant gaps in reasoning performance, highlighting the need
for knowledge-centric benchmarks to advance the development of intelligent
image editing systems.