GIE-Bench: В направлении обоснованной оценки редактирования изображений на основе текстовых инструкций
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
May 16, 2025
Авторы: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI
Аннотация
Редактирование изображений с использованием инструкций на естественном языке стало естественным и выразительным способом изменения визуального контента; однако оценка производительности таких моделей остается сложной задачей. Существующие подходы к оценке часто полагаются на метрики сходства изображений и текста, такие как CLIP, которые недостаточно точны. В данной работе мы представляем новый эталонный тест, предназначенный для более обоснованной оценки моделей редактирования изображений на основе текста, по двум ключевым направлениям: (i) функциональная корректность, оцениваемая с помощью автоматически сгенерированных вопросов с множественным выбором, которые проверяют, было ли успешно применено запрошенное изменение; и (ii) сохранение содержимого изображения, которое обеспечивает визуальную согласованность нецелевых областей изображения с использованием техники маскирования, учитывающей объекты, и оценки сохранности. Эталонный тест включает более 1000 высококачественных примеров редактирования в 20 различных категориях контента, каждый из которых аннотирован подробными инструкциями по редактированию, вопросами для оценки и пространственными масками объектов. Мы проводим масштабное исследование, сравнивая GPT-Image-1, последнюю флагманскую модель в области редактирования изображений на основе текста, с несколькими современными моделями редактирования, и проверяем наши автоматические метрики на соответствие человеческим оценкам. Результаты показывают, что GPT-Image-1 лидирует по точности выполнения инструкций, но часто чрезмерно изменяет нерелевантные области изображения, что подчеркивает ключевой компромисс в текущем поведении модели. GIE-Bench предоставляет масштабируемую и воспроизводимую основу для продвижения более точной оценки редактирования изображений на основе текста.
English
Editing images using natural language instructions has become a natural and
expressive way to modify visual content; yet, evaluating the performance of
such models remains challenging. Existing evaluation approaches often rely on
image-text similarity metrics like CLIP, which lack precision. In this work, we
introduce a new benchmark designed to evaluate text-guided image editing models
in a more grounded manner, along two critical dimensions: (i) functional
correctness, assessed via automatically generated multiple-choice questions
that verify whether the intended change was successfully applied; and (ii)
image content preservation, which ensures that non-targeted regions of the
image remain visually consistent using an object-aware masking technique and
preservation scoring. The benchmark includes over 1000 high-quality editing
examples across 20 diverse content categories, each annotated with detailed
editing instructions, evaluation questions, and spatial object masks. We
conduct a large-scale study comparing GPT-Image-1, the latest flagship in the
text-guided image editing space, against several state-of-the-art editing
models, and validate our automatic metrics against human ratings. Results show
that GPT-Image-1 leads in instruction-following accuracy, but often
over-modifies irrelevant image regions, highlighting a key trade-off in the
current model behavior. GIE-Bench provides a scalable, reproducible framework
for advancing more accurate evaluation of text-guided image editing.Summary
AI-Generated Summary