ChatPaper.aiChatPaper

GIE-Bench: Rumo a uma Avaliação Fundamentada para Edição de Imagens Guiada por Texto

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

May 16, 2025
Autores: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI

Resumo

A edição de imagens usando instruções em linguagem natural tornou-se uma maneira natural e expressiva de modificar conteúdo visual; no entanto, avaliar o desempenho de tais modelos continua sendo um desafio. As abordagens de avaliação existentes frequentemente dependem de métricas de similaridade entre imagem e texto, como o CLIP, que carecem de precisão. Neste trabalho, introduzimos um novo benchmark projetado para avaliar modelos de edição de imagens guiados por texto de maneira mais fundamentada, ao longo de duas dimensões críticas: (i) correção funcional, avaliada por meio de questões de múltipla escolha geradas automaticamente que verificam se a alteração pretendida foi aplicada com sucesso; e (ii) preservação do conteúdo da imagem, que garante que regiões não direcionadas da imagem permaneçam visualmente consistentes usando uma técnica de mascaramento consciente de objetos e pontuação de preservação. O benchmark inclui mais de 1000 exemplos de edição de alta qualidade em 20 categorias de conteúdo diversas, cada um anotado com instruções detalhadas de edição, questões de avaliação e máscaras espaciais de objetos. Realizamos um estudo em larga escala comparando o GPT-Image-1, o mais recente carro-chefe no espaço de edição de imagens guiadas por texto, com vários modelos de edição state-of-the-art, e validamos nossas métricas automáticas em relação a avaliações humanas. Os resultados mostram que o GPT-Image-1 lidera em precisão de seguimento de instruções, mas frequentemente modifica excessivamente regiões irrelevantes da imagem, destacando uma troca fundamental no comportamento atual do modelo. O GIE-Bench fornece uma estrutura escalável e reproduzível para avançar em avaliações mais precisas de edição de imagens guiadas por texto.
English
Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.
PDF32December 5, 2025