KRIS-Bench: 차세대 지능형 이미지 편집 모델 벤치마킹
KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
May 22, 2025
저자: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang
cs.AI
초록
최근 멀티모달 생성 모델의 발전으로 지시 기반 이미지 편집 분야에서 상당한 진전이 이루어졌습니다. 그러나 이러한 모델들이 시각적으로 그럴듯한 결과물을 생성하는 반면, 지식 기반 추론 편집 작업에 대한 능력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 인지적으로 정보화된 관점에서 모델을 평가하기 위해 설계된 진단 벤치마크인 KRIS-Bench(Knowledge-based Reasoning in Image-editing Systems Benchmark)를 소개합니다. 교육 이론에서 영감을 받은 KRIS-Bench는 편집 작업을 사실적(Factual), 개념적(Conceptual), 절차적(Procedural)이라는 세 가지 기본 지식 유형으로 분류합니다. 이 분류 체계를 바탕으로 7개의 추론 차원에 걸친 22개의 대표적인 작업을 설계하고, 1,267개의 고품질 주석이 달린 편집 인스턴스를 공개합니다. 세밀한 평가를 지원하기 위해, 지식 힌트로 강화되고 인간 연구를 통해 보정된 새로운 지식 타당성(Knowledge Plausibility) 메트릭을 포함한 포괄적인 프로토콜을 제안합니다. 10개의 최신 모델에 대한 실험 결과는 추론 성능에서 상당한 격차를 보여주며, 지식 중심 벤치마크가 지능형 이미지 편집 시스템의 발전을 촉진하는 데 필요함을 강조합니다.
English
Recent advances in multi-modal generative models have enabled significant
progress in instruction-based image editing. However, while these models
produce visually plausible outputs, their capacity for knowledge-based
reasoning editing tasks remains under-explored. In this paper, we introduce
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a
diagnostic benchmark designed to assess models through a cognitively informed
lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks
across three foundational knowledge types: Factual, Conceptual, and Procedural.
Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning
dimensions and release 1,267 high-quality annotated editing instances. To
support fine-grained evaluation, we propose a comprehensive protocol that
incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints
and calibrated through human studies. Empirical results on 10 state-of-the-art
models reveal significant gaps in reasoning performance, highlighting the need
for knowledge-centric benchmarks to advance the development of intelligent
image editing systems.Summary
AI-Generated Summary