GIE-Bench: Auf dem Weg zu einer fundierten Bewertung für textgesteuerte Bildbearbeitung
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
May 16, 2025
Autoren: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI
Zusammenfassung
Die Bearbeitung von Bildern mithilfe natürlicher Sprachanweisungen hat sich zu einer intuitiven und ausdrucksstarken Methode zur Modifikation visueller Inhalte entwickelt; dennoch bleibt die Bewertung der Leistung solcher Modelle eine Herausforderung. Bisherige Evaluierungsansätze stützen sich oft auf Bild-Text-Ähnlichkeitsmetriken wie CLIP, denen es an Präzision mangelt. In dieser Arbeit stellen wir einen neuen Benchmark vor, der darauf abzielt, textgesteuerte Bildbearbeitungsmodelle auf fundiertere Weise entlang zweier kritischer Dimensionen zu bewerten: (i) funktionale Korrektheit, die über automatisch generierte Multiple-Choice-Fragen überprüft wird, ob die beabsichtigte Änderung erfolgreich umgesetzt wurde; und (ii) die Erhaltung des Bildinhalts, die sicherstellt, dass nicht-zielgerichtete Bildbereiche visuell konsistent bleiben, indem eine objektbewusste Maskierungstechnik und ein Bewertungssystem zur Erhaltung eingesetzt werden. Der Benchmark umfasst über 1000 hochwertige Bearbeitungsbeispiele aus 20 verschiedenen Inhaltskategorien, die jeweils mit detaillierten Bearbeitungsanweisungen, Evaluierungsfragen und räumlichen Objektmasken annotiert sind. Wir führen eine groß angelegte Studie durch, in der GPT-Image-1, das neueste Flaggschiff im Bereich der textgesteuerten Bildbearbeitung, mit mehreren state-of-the-art Bearbeitungsmodellen verglichen wird, und validieren unsere automatischen Metriken anhand menschlicher Bewertungen. Die Ergebnisse zeigen, dass GPT-Image-1 in puncto Anweisungsgenauigkeit führend ist, jedoch oft irrelevante Bildbereiche übermäßig verändert, was einen zentralen Zielkonflikt im aktuellen Modellverhalten aufzeigt. GIE-Bench bietet einen skalierbaren, reproduzierbaren Rahmen, um die präzisere Bewertung textgesteuerter Bildbearbeitung voranzutreiben.
English
Editing images using natural language instructions has become a natural and
expressive way to modify visual content; yet, evaluating the performance of
such models remains challenging. Existing evaluation approaches often rely on
image-text similarity metrics like CLIP, which lack precision. In this work, we
introduce a new benchmark designed to evaluate text-guided image editing models
in a more grounded manner, along two critical dimensions: (i) functional
correctness, assessed via automatically generated multiple-choice questions
that verify whether the intended change was successfully applied; and (ii)
image content preservation, which ensures that non-targeted regions of the
image remain visually consistent using an object-aware masking technique and
preservation scoring. The benchmark includes over 1000 high-quality editing
examples across 20 diverse content categories, each annotated with detailed
editing instructions, evaluation questions, and spatial object masks. We
conduct a large-scale study comparing GPT-Image-1, the latest flagship in the
text-guided image editing space, against several state-of-the-art editing
models, and validate our automatic metrics against human ratings. Results show
that GPT-Image-1 leads in instruction-following accuracy, but often
over-modifies irrelevant image regions, highlighting a key trade-off in the
current model behavior. GIE-Bench provides a scalable, reproducible framework
for advancing more accurate evaluation of text-guided image editing.Summary
AI-Generated Summary