CREval: Una Valutazione Automatica e Interpretabile per la Manipolazione Creativa di Immagini con Istruzioni Complesse

Abstract

La manipolazione multimodale di immagini basata su istruzioni ha recentemente compiuto rapidi progressi. Tuttavia, i metodi di valutazione esistenti mancano di un quadro sistematico e allineato all'umano per valutare le prestazioni dei modelli in compiti di editing complessi e creativi. Per colmare questa lacuna, proponiamo CREval, una pipeline di valutazione automatizzata basata su domande-risposte (QA) che supera l'incompletezza e la scarsa interpretabilità della valutazione opaca tramite Modelli Linguistici Multimodali (MLLM). Contemporaneamente, introduciamo CREval-Bench, un benchmark completo specificamente progettato per la manipolazione creativa di immagini sotto istruzioni complesse. CREval-Bench copre tre categorie e nove dimensioni creative, comprendendo oltre 800 campioni di editing e 13.000 query di valutazione. Sfruttando questa pipeline e benchmark, valutiamo sistematicamente una serie diversificata di modelli all'avanguardia open-source e proprietari. I risultati rivelano che, sebbene i modelli proprietari superino generalmente quelli open-source nei compiti complessi e creativi, tutti i modelli faticano ancora a completare efficacemente tali modifiche. Inoltre, studi sugli utenti dimostrano una forte coerenza tra le metriche automatizzate di CREval e i giudizi umani. Pertanto, CREval fornisce una base affidabile per valutare i modelli di editing di immagini su compiti di manipolazione complessi e creativi, ed evidenzia le principali sfide e opportunità per la ricerca futura.

English

Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.

CREval: Una Valutazione Automatica e Interpretabile per la Manipolazione Creativa di Immagini con Istruzioni Complesse

CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

Abstract

Support