CREval : Une évaluation automatisée et interprétable pour la manipulation créative d'images sous instructions complexes
CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions
March 27, 2026
Auteurs: Chonghuinan Wang, Zihan Chen, Yuxiang Wei, Tianyi Jiang, Xiaohe Wu, Fan Li, Wangmeng Zuo, Hongxun Yao
cs.AI
Résumé
La manipulation d'images multimodale basée sur des instructions a récemment progressé rapidement. Cependant, les méthodes d'évaluation existantes manquent d'un cadre systématique et aligné sur l'humain pour évaluer les performances des modèles sur des tâches d'édition complexes et créatives. Pour combler cette lacune, nous proposons CREval, un pipeline d'évaluation entièrement automatisé basé sur des questions-réponses (QA) qui surmonte l'incomplétude et la faible interprétabilité des scores opaques des modèles de langage multimodaux de grande taille (MLLM). Simultanément, nous introduisons CREval-Bench, un benchmark complet spécialement conçu pour la manipulation créative d'images sous instructions complexes. CREval-Bench couvre trois catégories et neuf dimensions créatives, comprenant plus de 800 échantillons d'édition et 13 000 requêtes d'évaluation. En tirant parti de ce pipeline et de ce benchmark, nous évaluons systématiquement un ensemble diversifié de modèles open-source et propriétaires à la pointe de la technologie. Les résultats révèlent que si les modèles propriétaires surpassent généralement les modèles open-source sur les tâches complexes et créatives, tous les modèles peinent encore à réaliser efficacement ce type de modifications. De plus, des études utilisateurs démontrent une forte cohérence entre les métriques automatisées de CREval et les jugements humains. Par conséquent, CREval fournit une base fiable pour évaluer les modèles d'édition d'images sur des tâches de manipulation d'images complexes et créatives, et met en lumière les défis clés et les opportunités pour les recherches futures.
English
Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.