GIE-Bench: Rumo a uma Avaliação Fundamentada para Edição de Imagens Guiada por Texto
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
May 16, 2025
Autores: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI
Resumo
A edição de imagens usando instruções em linguagem natural tornou-se uma maneira natural e expressiva de modificar conteúdo visual; no entanto, avaliar o desempenho de tais modelos continua sendo um desafio. As abordagens de avaliação existentes frequentemente dependem de métricas de similaridade entre imagem e texto, como o CLIP, que carecem de precisão. Neste trabalho, introduzimos um novo benchmark projetado para avaliar modelos de edição de imagens guiados por texto de maneira mais fundamentada, ao longo de duas dimensões críticas: (i) correção funcional, avaliada por meio de questões de múltipla escolha geradas automaticamente que verificam se a alteração pretendida foi aplicada com sucesso; e (ii) preservação do conteúdo da imagem, que garante que regiões não direcionadas da imagem permaneçam visualmente consistentes usando uma técnica de mascaramento consciente de objetos e pontuação de preservação. O benchmark inclui mais de 1000 exemplos de edição de alta qualidade em 20 categorias de conteúdo diversas, cada um anotado com instruções detalhadas de edição, questões de avaliação e máscaras espaciais de objetos. Realizamos um estudo em larga escala comparando o GPT-Image-1, o mais recente carro-chefe no espaço de edição de imagens guiadas por texto, com vários modelos de edição state-of-the-art, e validamos nossas métricas automáticas em relação a avaliações humanas. Os resultados mostram que o GPT-Image-1 lidera em precisão de seguimento de instruções, mas frequentemente modifica excessivamente regiões irrelevantes da imagem, destacando uma troca fundamental no comportamento atual do modelo. O GIE-Bench fornece uma estrutura escalável e reproduzível para avançar em avaliações mais precisas de edição de imagens guiadas por texto.
English
Editing images using natural language instructions has become a natural and
expressive way to modify visual content; yet, evaluating the performance of
such models remains challenging. Existing evaluation approaches often rely on
image-text similarity metrics like CLIP, which lack precision. In this work, we
introduce a new benchmark designed to evaluate text-guided image editing models
in a more grounded manner, along two critical dimensions: (i) functional
correctness, assessed via automatically generated multiple-choice questions
that verify whether the intended change was successfully applied; and (ii)
image content preservation, which ensures that non-targeted regions of the
image remain visually consistent using an object-aware masking technique and
preservation scoring. The benchmark includes over 1000 high-quality editing
examples across 20 diverse content categories, each annotated with detailed
editing instructions, evaluation questions, and spatial object masks. We
conduct a large-scale study comparing GPT-Image-1, the latest flagship in the
text-guided image editing space, against several state-of-the-art editing
models, and validate our automatic metrics against human ratings. Results show
that GPT-Image-1 leads in instruction-following accuracy, but often
over-modifies irrelevant image regions, highlighting a key trade-off in the
current model behavior. GIE-Bench provides a scalable, reproducible framework
for advancing more accurate evaluation of text-guided image editing.