KRIS-Bench: 次世代インテリジェント画像編集モデルのベンチマーキング
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
May 22, 2025
著者: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI
要旨
近年のマルチモーダル生成モデルの進展により、指示に基づく画像編集において大きな進歩が見られています。しかし、これらのモデルは視覚的に妥当な出力を生成する一方で、知識に基づく推論編集タスクに対する能力はまだ十分に検証されていません。本論文では、KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)を紹介します。これは、認知科学的な視点からモデルを評価するための診断ベンチマークです。教育理論に基づき、KRIS-Benchは編集タスクを3つの基礎的な知識タイプ(事実的、概念的、手続き的)に分類します。この分類に基づいて、7つの推論次元にわたる22の代表的なタスクを設計し、1,267の高品質な注釈付き編集インスタンスを公開します。詳細な評価を支援するため、新たな「知識妥当性」指標を組み込んだ包括的なプロトコルを提案し、知識ヒントによる強化と人間による研究を通じて較正を行います。10の最先端モデルに対する実証結果から、推論性能に大きなギャップがあることが明らかになり、インテリジェントな画像編集システムの開発を進めるためには、知識中心のベンチマークが必要であることが強調されました。
English
Recent advances in multi-modal generative models have enabled significant
progress in instruction-based image editing. However, while these models
produce visually plausible outputs, their capacity for knowledge-based
reasoning editing tasks remains under-explored. In this paper, we introduce
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a
diagnostic benchmark designed to assess models through a cognitively informed
lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks
across three foundational knowledge types: Factual, Conceptual, and Procedural.
Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning
dimensions and release 1,267 high-quality annotated editing instances. To
support fine-grained evaluation, we propose a comprehensive protocol that
incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints
and calibrated through human studies. Empirical results on 10 state-of-the-art
models reveal significant gaps in reasoning performance, highlighting the need
for knowledge-centric benchmarks to advance the development of intelligent
image editing systems.Summary
AI-Generated Summary