CREval: Автоматизированная интерпретируемая оценка креативных манипуляций с изображениями по сложным инструкциям

Аннотация

Инструкционное мультимодальное манипулирование изображениями в последнее время демонстрирует быстрый прогресс. Однако существующие методы оценки не имеют систематической и согласованной с человеческим восприятием структуры для анализа производительности моделей на сложных и творческих задачах редактирования. Чтобы заполнить этот пробел, мы предлагаем CREval — полностью автоматизированный конвейер оценки на основе вопросов и ответов (QA), который преодолевает неполноту и низкую интерпретируемость оценок, выдаваемых «чёрными ящиками» мультимодальных больших языковых моделей (MLLM). Одновременно мы представляем CREval-Bench — комплексный бенчмарк, специально разработанный для оценки творческого манипулирования изображениями по сложным инструкциям. CREval-Bench охватывает три категории и девять творческих измерений, включая более 800 образцов редактирования и 13 тысяч оценочных запросов. Используя этот конвейер и бенчмарк, мы систематически оценили разнообразный набор передовых открытых и проприетарных моделей. Результаты показывают, что хотя проприетарные модели в целом превосходят открытые на сложных и творческих задачах, все модели по-прежнему испытывают трудности с эффективным выполнением таких правок. Кроме того, пользовательские исследования демонстрируют сильную согласованность между автоматическими метриками CREval и человеческими оценками. Таким образом, CREval обеспечивает надежную основу для оценки моделей редактирования изображений на сложных и творческих задачах и выявляет ключевые проблемы и возможности для будущих исследований.

English

Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.

CREval: Автоматизированная интерпретируемая оценка креативных манипуляций с изображениями по сложным инструкциям

CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions

Аннотация

Support