GIE-Bench: Hacia una Evaluación Fundamentada para la Edición de Imágenes Guiada por Texto
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
May 16, 2025
Autores: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI
Resumen
La edición de imágenes mediante instrucciones en lenguaje natural se ha convertido en una forma natural y expresiva de modificar contenido visual; sin embargo, evaluar el rendimiento de tales modelos sigue siendo un desafío. Los enfoques de evaluación existentes a menudo dependen de métricas de similitud entre imagen y texto, como CLIP, que carecen de precisión. En este trabajo, presentamos un nuevo punto de referencia diseñado para evaluar modelos de edición de imágenes guiados por texto de una manera más fundamentada, en dos dimensiones críticas: (i) corrección funcional, evaluada mediante preguntas de opción múltiple generadas automáticamente que verifican si el cambio deseado se aplicó correctamente; y (ii) preservación del contenido de la imagen, que asegura que las regiones no objetivo de la imagen permanezcan visualmente consistentes mediante una técnica de enmascaramiento consciente de objetos y una puntuación de preservación. El punto de referencia incluye más de 1000 ejemplos de edición de alta calidad en 20 categorías de contenido diversas, cada uno anotado con instrucciones detalladas de edición, preguntas de evaluación y máscaras espaciales de objetos. Realizamos un estudio a gran escala comparando GPT-Image-1, el último modelo destacado en el ámbito de la edición de imágenes guiadas por texto, con varios modelos de edición de vanguardia, y validamos nuestras métricas automáticas frente a calificaciones humanas. Los resultados muestran que GPT-Image-1 lidera en precisión de seguimiento de instrucciones, pero a menudo modifica en exceso regiones irrelevantes de la imagen, destacando un equilibrio clave en el comportamiento actual del modelo. GIE-Bench proporciona un marco escalable y reproducible para avanzar hacia una evaluación más precisa de la edición de imágenes guiadas por texto.
English
Editing images using natural language instructions has become a natural and
expressive way to modify visual content; yet, evaluating the performance of
such models remains challenging. Existing evaluation approaches often rely on
image-text similarity metrics like CLIP, which lack precision. In this work, we
introduce a new benchmark designed to evaluate text-guided image editing models
in a more grounded manner, along two critical dimensions: (i) functional
correctness, assessed via automatically generated multiple-choice questions
that verify whether the intended change was successfully applied; and (ii)
image content preservation, which ensures that non-targeted regions of the
image remain visually consistent using an object-aware masking technique and
preservation scoring. The benchmark includes over 1000 high-quality editing
examples across 20 diverse content categories, each annotated with detailed
editing instructions, evaluation questions, and spatial object masks. We
conduct a large-scale study comparing GPT-Image-1, the latest flagship in the
text-guided image editing space, against several state-of-the-art editing
models, and validate our automatic metrics against human ratings. Results show
that GPT-Image-1 leads in instruction-following accuracy, but often
over-modifies irrelevant image regions, highlighting a key trade-off in the
current model behavior. GIE-Bench provides a scalable, reproducible framework
for advancing more accurate evaluation of text-guided image editing.Summary
AI-Generated Summary