GIE-Bench : Vers une évaluation ancrée pour l'édition d'images guidée par texte
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
May 16, 2025
Auteurs: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI
Résumé
La modification d'images à l'aide d'instructions en langage naturel est devenue une méthode intuitive et expressive pour transformer le contenu visuel ; cependant, évaluer la performance de tels modèles reste un défi. Les approches d'évaluation existantes reposent souvent sur des métriques de similarité image-texte comme CLIP, qui manquent de précision. Dans ce travail, nous introduisons un nouveau benchmark conçu pour évaluer les modèles de modification d'images guidés par texte de manière plus rigoureuse, selon deux dimensions critiques : (i) la correction fonctionnelle, évaluée via des questions à choix multiples générées automatiquement pour vérifier si le changement souhaité a été correctement appliqué ; et (ii) la préservation du contenu de l'image, qui garantit que les régions non ciblées restent visuellement cohérentes grâce à une technique de masquage basée sur les objets et à un score de préservation. Le benchmark comprend plus de 1000 exemples de modifications de haute qualité répartis dans 20 catégories de contenu variées, chacun annoté avec des instructions détaillées, des questions d'évaluation et des masques spatiaux d'objets. Nous menons une étude à grande échelle comparant GPT-Image-1, le dernier modèle phare dans le domaine de la modification d'images guidée par texte, à plusieurs modèles de pointe, et validons nos métriques automatiques par rapport aux évaluations humaines. Les résultats montrent que GPT-Image-1 excelle en précision dans le suivi des instructions, mais modifie souvent excessivement des régions non pertinentes de l'image, mettant en lumière un compromis clé dans le comportement actuel des modèles. GIE-Bench offre un cadre évolutif et reproductible pour faire progresser l'évaluation plus précise de la modification d'images guidée par texte.
English
Editing images using natural language instructions has become a natural and
expressive way to modify visual content; yet, evaluating the performance of
such models remains challenging. Existing evaluation approaches often rely on
image-text similarity metrics like CLIP, which lack precision. In this work, we
introduce a new benchmark designed to evaluate text-guided image editing models
in a more grounded manner, along two critical dimensions: (i) functional
correctness, assessed via automatically generated multiple-choice questions
that verify whether the intended change was successfully applied; and (ii)
image content preservation, which ensures that non-targeted regions of the
image remain visually consistent using an object-aware masking technique and
preservation scoring. The benchmark includes over 1000 high-quality editing
examples across 20 diverse content categories, each annotated with detailed
editing instructions, evaluation questions, and spatial object masks. We
conduct a large-scale study comparing GPT-Image-1, the latest flagship in the
text-guided image editing space, against several state-of-the-art editing
models, and validate our automatic metrics against human ratings. Results show
that GPT-Image-1 leads in instruction-following accuracy, but often
over-modifies irrelevant image regions, highlighting a key trade-off in the
current model behavior. GIE-Bench provides a scalable, reproducible framework
for advancing more accurate evaluation of text-guided image editing.Summary
AI-Generated Summary