ChatPaper.aiChatPaper

WiseEdit: 인지 및 창의성 기반 이미지 편집 성능 평가

WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

November 29, 2025
저자: Kaihang Pan, Weile Chen, Haiyi Qiu, Qifan Yu, Wendong Bu, Zehan Wang, Yun Zhu, Juncheng Li, Siliang Tang
cs.AI

초록

최근 이미지 편집 모델은 인지 및 창의성에 기반한 이미지 편집을 용이하게 하는 차세대 지능형 능력을 자랑합니다. 그러나 기존 벤치마크는 평가 범위가 지나치게 제한적이어서 이러한 고급 능력을 종합적으로 평가하지 못하고 있습니다. 이를 해결하기 위해 우리는 깊은 과제 심도와 넓은 지식 폭을 특징으로 하는, 인지 및 창의성 기반 이미지 편집의 종합적 평가를 위한 지식 집약적 벤치마크인 WiseEdit를 소개합니다. 인간의 인지적 창작 과정에 비유하여, WiseEdit는 이미지 편집을 인지(Awareness), 해석(Interpretation), 상상(Imagination)이라는 세 단계의 연속적 과정으로 분해하며, 각 단계는 특정 단계에서 모델이 완수하기 어려운 과제에 해당합니다. 또한 세 단계 중 그 어느 것도 쉽게 완료될 수 없는 복합 과제도 포함합니다. 더 나아가 WiseEdit는 세 가지 기본 지식 유형인 선언적 지식(Declarative Knowledge), 절차적 지식(Procedural Knowledge), 메타인지 지식(Metacognitive Knowledge)을 통합합니다. 결국 WiseEdit는 1,220개의 테스트 케이스로 구성되어 있으며, 최첨단(SoTA) 이미지 편집 모델들의 지식 기반 인지 추론 및 창의적 구성 능력의 한계를 객관적으로 드러냅니다. 벤치마크, 평가 코드, 각 모델별 생성 이미지는 곧 공개될 예정입니다. 프로젝트 페이지: https://qnancy.github.io/wiseedit_project_page/.
English
Recent image editing models boast next-level intelligent capabilities, facilitating cognition- and creativity-informed image editing. Yet, existing benchmarks provide too narrow a scope for evaluation, failing to holistically assess these advanced abilities. To address this, we introduce WiseEdit, a knowledge-intensive benchmark for comprehensive evaluation of cognition- and creativity-informed image editing, featuring deep task depth and broad knowledge breadth. Drawing an analogy to human cognitive creation, WiseEdit decomposes image editing into three cascaded steps, i.e., Awareness, Interpretation, and Imagination, each corresponding to a task that poses a challenge for models to complete at the specific step. It also encompasses complex tasks, where none of the three steps can be finished easily. Furthermore, WiseEdit incorporates three fundamental types of knowledge: Declarative, Procedural, and Metacognitive knowledge. Ultimately, WiseEdit comprises 1,220 test cases, objectively revealing the limitations of SoTA image editing models in knowledge-based cognitive reasoning and creative composition capabilities. The benchmark, evaluation code, and the generated images of each model will be made publicly available soon. Project Page: https://qnancy.github.io/wiseedit_project_page/.
PDF21December 3, 2025