GIE-Bench: Auf dem Weg zu einer fundierten Bewertung für textgesteuerte Bildbearbeitung

papers.abstract

Die Bearbeitung von Bildern mithilfe natürlicher Sprachanweisungen hat sich zu einer intuitiven und ausdrucksstarken Methode zur Modifikation visueller Inhalte entwickelt; dennoch bleibt die Bewertung der Leistung solcher Modelle eine Herausforderung. Bisherige Evaluierungsansätze stützen sich oft auf Bild-Text-Ähnlichkeitsmetriken wie CLIP, denen es an Präzision mangelt. In dieser Arbeit stellen wir einen neuen Benchmark vor, der darauf abzielt, textgesteuerte Bildbearbeitungsmodelle auf fundiertere Weise entlang zweier kritischer Dimensionen zu bewerten: (i) funktionale Korrektheit, die über automatisch generierte Multiple-Choice-Fragen überprüft wird, ob die beabsichtigte Änderung erfolgreich umgesetzt wurde; und (ii) die Erhaltung des Bildinhalts, die sicherstellt, dass nicht-zielgerichtete Bildbereiche visuell konsistent bleiben, indem eine objektbewusste Maskierungstechnik und ein Bewertungssystem zur Erhaltung eingesetzt werden. Der Benchmark umfasst über 1000 hochwertige Bearbeitungsbeispiele aus 20 verschiedenen Inhaltskategorien, die jeweils mit detaillierten Bearbeitungsanweisungen, Evaluierungsfragen und räumlichen Objektmasken annotiert sind. Wir führen eine groß angelegte Studie durch, in der GPT-Image-1, das neueste Flaggschiff im Bereich der textgesteuerten Bildbearbeitung, mit mehreren state-of-the-art Bearbeitungsmodellen verglichen wird, und validieren unsere automatischen Metriken anhand menschlicher Bewertungen. Die Ergebnisse zeigen, dass GPT-Image-1 in puncto Anweisungsgenauigkeit führend ist, jedoch oft irrelevante Bildbereiche übermäßig verändert, was einen zentralen Zielkonflikt im aktuellen Modellverhalten aufzeigt. GIE-Bench bietet einen skalierbaren, reproduzierbaren Rahmen, um die präzisere Bewertung textgesteuerter Bildbearbeitung voranzutreiben.

English

Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.

GIE-Bench: Auf dem Weg zu einer fundierten Bewertung für textgesteuerte Bildbearbeitung

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

papers.abstract

Support