CREval: Eine automatisierte, interpretierbare Bewertung für kreative Bildbearbeitung unter komplexen Anweisungen

Zusammenfassung

Instruktionsbasierte multimodale Bildmanipulation hat in jüngster Zeit rasante Fortschritte gemacht. Bisherige Evaluierungsmethoden weisen jedoch einen Mangel an systematischen und humanalignierten Rahmenwerken auf, um die Modellleistung bei komplexen und kreativen Bearbeitungsaufgaben zu bewerten. Um diese Lücke zu schließen, schlagen wir CREval vor, eine vollständig automatisierte Evaluierungspipeline auf Frage-Antwort-Basis, die die Unvollständigkeit und schlechte Interpretierbarkeit undurchsichtiger Bewertungen durch Multimodale Large Language Models (MLLMs) überwindet. Gleichzeitig führen wir CREval-Bench ein, einen umfassenden Benchmark, der speziell für kreative Bildmanipulation unter komplexen Anweisungen entwickelt wurde. CREval-Bench umfasst drei Kategorien und neun kreative Dimensionen mit über 800 Bearbeitungsbeispielen und 13.000 Evaluierungsanfragen. Mithilfe dieser Pipeline und dieses Benchmarks evaluieren wir systematisch eine Vielzahl moderner Open-Source- und proprietärer Modelle. Die Ergebnisse zeigen, dass zwar proprietäre Modelle bei komplexen und kreativen Aufgaben generell besser abschneiden als Open-Source-Modelle, alle Modelle jedoch nach wie vor Schwierigkeiten haben, solche Bearbeitungen effektiv durchzuführen. Zudem belegen Nutzerstudien eine starke Übereinstimmung zwischen den automatisierten Metriken von CREval und menschlichen Bewertungen. Somit bietet CREval eine verlässliche Grundlage für die Bewertung von Bildbearbeitungsmodellen bei komplexen und kreativen Bildmanipulationsaufgaben und zeigt zentrale Herausforderungen und Chancen für zukünftige Forschung auf.

English

Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.

CREval: Eine automatisierte, interpretierbare Bewertung für kreative Bildbearbeitung unter komplexen Anweisungen

CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

Zusammenfassung

Support