CREval: Una Evaluación Automatizada e Interpretable para la Manipulación Creativa de Imágenes bajo Instrucciones Complejas

Resumen

La manipulación multimodal de imágenes basada en instrucciones ha experimentado recientes avances rápidos. Sin embargo, los métodos de evaluación existentes carecen de un marco sistemático y alineado con criterios humanos para valorar el rendimiento de los modelos en tareas de edición complejas y creativas. Para abordar esta carencia, proponemos CREval, una pipeline de evaluación automatizada basada en preguntas y respuestas (QA) que supera la incompletitud y la escasa interpretabilidad de las puntuaciones opacas de los Modelos de Lenguaje Grandes Multimodales (MLLM). Simultáneamente, presentamos CREval-Bench, un benchmark integral diseñado específicamente para la manipulación creativa de imágenes bajo instrucciones complejas. CREval-Bench abarca tres categorías y nueve dimensiones creativas, comprendiendo más de 800 muestras de edición y 13.000 consultas de evaluación. Aprovechando esta pipeline y benchmark, evaluamos sistemáticamente un conjunto diverso de modelos de última generación, tanto de código abierto como comerciales. Los resultados revelan que, si bien los modelos comerciales generalmente superan a los de código abierto en tareas complejas y creativas, todos los modelos aún presentan dificultades para completar dichas ediciones de manera efectiva. Adicionalmente, estudios de usuario demuestran una fuerte consistencia entre las métricas automatizadas de CREval y los juicios humanos. Por lo tanto, CREval proporciona una base confiable para evaluar modelos de edición de imágenes en tareas de manipulación complejas y creativas, y resalta desafíos clave y oportunidades para la investigación futura.

English

Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.

CREval: Una Evaluación Automatizada e Interpretable para la Manipulación Creativa de Imágenes bajo Instrucciones Complejas

CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

Resumen

Support