CREval: Uma Avaliação Interpretável Automatizada para Manipulação Criativa de Imagens sob Instruções Complexas

Resumo

A manipulação multimodal de imagens baseada em instruções tem progredido rapidamente recentemente. No entanto, os métodos de avaliação existentes carecem de uma estrutura sistemática e alinhada com humanos para avaliar o desempenho dos modelos em tarefas de edição complexas e criativas. Para preencher esta lacuna, propomos o CREval, um pipeline de avaliação totalmente automatizado baseado em perguntas e respostas (QA) que supera a incompletude e a baixa interpretabilidade da pontuação opaca de Modelos de Linguagem Multimodais (MLLMs). Simultaneamente, introduzimos o CREval-Bench, um benchmark abrangente especificamente projetado para manipulação criativa de imagens sob instruções complexas. O CREval-Bench abrange três categorias e nove dimensões criativas, compreendendo mais de 800 amostras de edição e 13 mil consultas de avaliação. Aproveitando este pipeline e benchmark, avaliamos sistematicamente um conjunto diversificado de modelos state-of-the-art, tanto de código aberto quanto proprietários. Os resultados revelam que, embora os modelos proprietários geralmente superem os de código aberto em tarefas complexas e criativas, todos os modelos ainda lutam para concluir tais edições de forma eficaz. Além disso, estudos com usuários demonstram forte consistência entre as métricas automatizadas do CREval e os julgamentos humanos. Portanto, o CREval fornece uma base confiável para avaliar modelos de edição de imagem em tarefas complexas e criativas de manipulação de imagens, e destaca desafios e oportunidades fundamentais para pesquisas futuras.

English

Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.

CREval: Uma Avaliação Interpretável Automatizada para Manipulação Criativa de Imagens sob Instruções Complexas

CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

Resumo

Support