GIE-Bench: Hacia una Evaluación Fundamentada para la Edición de Imágenes Guiada por Texto

Resumen

La edición de imágenes mediante instrucciones en lenguaje natural se ha convertido en una forma natural y expresiva de modificar contenido visual; sin embargo, evaluar el rendimiento de tales modelos sigue siendo un desafío. Los enfoques de evaluación existentes a menudo dependen de métricas de similitud entre imagen y texto, como CLIP, que carecen de precisión. En este trabajo, presentamos un nuevo punto de referencia diseñado para evaluar modelos de edición de imágenes guiados por texto de una manera más fundamentada, en dos dimensiones críticas: (i) corrección funcional, evaluada mediante preguntas de opción múltiple generadas automáticamente que verifican si el cambio deseado se aplicó correctamente; y (ii) preservación del contenido de la imagen, que asegura que las regiones no objetivo de la imagen permanezcan visualmente consistentes mediante una técnica de enmascaramiento consciente de objetos y una puntuación de preservación. El punto de referencia incluye más de 1000 ejemplos de edición de alta calidad en 20 categorías de contenido diversas, cada uno anotado con instrucciones detalladas de edición, preguntas de evaluación y máscaras espaciales de objetos. Realizamos un estudio a gran escala comparando GPT-Image-1, el último modelo destacado en el ámbito de la edición de imágenes guiadas por texto, con varios modelos de edición de vanguardia, y validamos nuestras métricas automáticas frente a calificaciones humanas. Los resultados muestran que GPT-Image-1 lidera en precisión de seguimiento de instrucciones, pero a menudo modifica en exceso regiones irrelevantes de la imagen, destacando un equilibrio clave en el comportamiento actual del modelo. GIE-Bench proporciona un marco escalable y reproducible para avanzar hacia una evaluación más precisa de la edición de imágenes guiadas por texto.

English

Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.

GIE-Bench: Hacia una Evaluación Fundamentada para la Edición de Imágenes Guiada por Texto

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

Resumen

Support