ChatPaper.aiChatPaper

KRIS-Bench: Бенчмаркинг моделей интеллектуального редактирования изображений следующего уровня

KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models

May 22, 2025
Авторы: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI

Аннотация

Последние достижения в области мультимодальных генеративных моделей позволили добиться значительного прогресса в редактировании изображений на основе инструкций. Однако, хотя эти модели создают визуально правдоподобные результаты, их способность выполнять задачи редактирования, основанные на знаниях, остается недостаточно изученной. В данной статье мы представляем KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), диагностический эталон, разработанный для оценки моделей через когнитивно-информированную призму. Опираясь на образовательную теорию, KRIS-Bench классифицирует задачи редактирования по трем основным типам знаний: Фактические, Концептуальные и Процедурные. На основе этой таксономии мы разработали 22 репрезентативные задачи, охватывающие 7 измерений рассуждений, и опубликовали 1 267 высококачественных аннотированных примеров редактирования. Для поддержки детальной оценки мы предлагаем комплексный протокол, включающий новый показатель Правдоподобности Знаний, усиленный подсказками на основе знаний и откалиброванный с помощью исследований с участием людей. Эмпирические результаты для 10 современных моделей выявили значительные пробелы в производительности рассуждений, подчеркивая необходимость эталонов, ориентированных на знания, для продвижения разработки интеллектуальных систем редактирования изображений.
English
Recent advances in multi-modal generative models have enabled significant progress in instruction-based image editing. However, while these models produce visually plausible outputs, their capacity for knowledge-based reasoning editing tasks remains under-explored. In this paper, we introduce KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a diagnostic benchmark designed to assess models through a cognitively informed lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks across three foundational knowledge types: Factual, Conceptual, and Procedural. Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning dimensions and release 1,267 high-quality annotated editing instances. To support fine-grained evaluation, we propose a comprehensive protocol that incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints and calibrated through human studies. Empirical results on 10 state-of-the-art models reveal significant gaps in reasoning performance, highlighting the need for knowledge-centric benchmarks to advance the development of intelligent image editing systems.

Summary

AI-Generated Summary

PDF362May 23, 2025