CREval: Een geautomatiseerde interpreteerbare evaluatie voor creatieve beeldmanipulatie onder complexe instructies

Samenvatting

Op instructies gebaseerde multimodale beeldmanipulatie heeft recentelijk snelle vooruitgang geboekt. Bestaande evaluatiemethoden ontberen echter een systematisch en mensgericht kader voor het beoordelen van modelprestaties bij complexe en creatieve bewerkingstaken. Om deze leemte op te vullen, stellen we CREval voor, een volledig geautomatiseerd op vraag-antwoord (QA) gebaseerd evaluatieproces dat de onvolledigheid en slechte interpreteerbaarheid van ondoorzichtige scores van Multimodale Large Language Models (MLLM's) overwint. Tegelijkertijd introduceren we CREval-Bench, een uitgebreide benchmark die specifiek is ontworpen voor creatieve beeldmanipulatie onder complexe instructies. CREval-Bench omvat drie categorieën en negen creatieve dimensies, bestaande uit meer dan 800 bewerkingsvoorbeelden en 13.000 evaluatievragen. Door gebruik te maken van deze pijplijn en benchmark, evalueren we systematisch een diverse reeks state-of-the-art open-source en gesloten modellen. De resultaten tonen aan dat hoewel gesloten modellen over het algemeen beter presteren dan open-source modellen bij complexe en creatieve taken, alle modellen nog steeds moeite hebben om dergelijke bewerkingen effectief uit te voeren. Bovendien tonen gebruikersstudies een sterke consistentie aan tussen de geautomatiseerde metrieken van CREval en menselijke oordelen. CREval biedt daarom een betrouwbare basis voor het evalueren van beeldbewerkingsmodellen bij complexe en creatieve beeldmanipulatietaken, en belicht belangrijke uitdagingen en kansen voor toekomstig onderzoek.

English

Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.

CREval: Een geautomatiseerde interpreteerbare evaluatie voor creatieve beeldmanipulatie onder complexe instructies

CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

Samenvatting

Support