CREval: 복잡한 지시어에 따른 창의적 이미지 조작을 위한 자동화된 해석 가능 평가
CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions
March 27, 2026
저자: Chonghuinan Wang, Zihan Chen, Yuxiang Wei, Tianyi Jiang, Xiaohe Wu, Fan Li, Wangmeng Zuo, Hongxun Yao
cs.AI
초록
지침 기반 다중모달 이미지 조작은 최근 빠르게 발전하고 있습니다. 그러나 기존 평가 방법론은 복잡하고 창의적인 편집 작업에 대한 모델 성능을 평가하기 위한 체계적이고 인간 인식에 부합하는 프레임워크가 부족합니다. 이러한 격차를 해결하기 위해 우리는 불투명한 다중모달 대규모 언어 모델(MLLM) 점수화의 불완전성과 낮은 해석 가능성을 극복하는 완전 자동화된 질문-답변(QA) 기반 평가 파이프라인인 CREval을 제안합니다. 동시에 복잡한 지침 하의 창의적 이미지 조작을 위해 특별히 설계된 포괄적인 벤치마크인 CREval-Bench을 소개합니다. CREval-Bench은 3개 범주와 9개 창의적 차원을 포함하며, 800개 이상의 편집 샘플과 13,000개 이상의 평가 질문으로 구성됩니다. 이 파이프라인과 벤치마크를 활용하여 우리는 다양한 최첨단 오픈소스 및 클로즈드소스 모델들을 체계적으로 평가합니다. 결과에 따르면 클로즈드소스 모델이 일반적으로 복잡하고 창의적인 작업에서 오픈소스 모델보다 우수한 성능을 보이지만, 모든 모델이 여전히 그러한 편집을 효과적으로 완수하는 데 어려움을 겪고 있습니다. 또한 사용자 연구는 CREval의 자동화된 메트릭과 인간의 판단 간에 강한 일관성을 입증합니다. 따라서 CREval은 복잡하고 창의적인 이미지 조작 작업에 대한 이미지 편집 모델 평가를 위한 신뢰할 수 있는 기반을 제공하며, 향후 연구를 위한 주요 과제와 기회를 부각시킵니다.
English
Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.