ChatPaper.aiChatPaper

GIE-Bench: Naar een Gegronde Evaluatie voor Tekstgestuurd Beeldbewerken

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

May 16, 2025
Auteurs: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI

Samenvatting

Het bewerken van afbeeldingen met behulp van natuurlijke taal instructies is een natuurlijke en expressieve manier geworden om visuele inhoud aan te passen; toch blijft het evalueren van de prestaties van dergelijke modellen een uitdaging. Bestaande evaluatiemethoden vertrouwen vaak op beeld-tekst gelijkenismetrieken zoals CLIP, die gebrek aan precisie hebben. In dit werk introduceren we een nieuwe benchmark die is ontworpen om tekstgestuurde beeldbewerkingsmodellen op een meer gefundeerde manier te evalueren, langs twee kritische dimensies: (i) functionele correctheid, beoordeeld via automatisch gegenereerde meerkeuzevragen die verifiëren of de beoogde wijziging succesvol is toegepast; en (ii) behoud van beeldinhoud, wat ervoor zorgt dat niet-doelgerichte regio's van de afbeelding visueel consistent blijven met behulp van een objectbewuste maskeringstechniek en behoudsscore. De benchmark omvat meer dan 1000 hoogwaardige bewerkingsvoorbeelden over 20 diverse inhoudscategorieën, elk geannoteerd met gedetailleerde bewerkingsinstructies, evaluatievragen en ruimtelijke objectmaskers. We voeren een grootschalige studie uit waarin GPT-Image-1, het nieuwste vlaggenschip in het tekstgestuurde beeldbewerkingsdomein, wordt vergeleken met verschillende state-of-the-art bewerkingsmodellen, en valideren onze automatische metrieken tegen menselijke beoordelingen. De resultaten tonen aan dat GPT-Image-1 leidt in nauwkeurigheid van instructievolging, maar vaak irrelevante beeldregio's overmatig wijzigt, wat een belangrijk afweging in het huidige modelgedrag benadrukt. GIE-Bench biedt een schaalbaar, reproduceerbaar raamwerk voor het bevorderen van nauwkeurigere evaluatie van tekstgestuurde beeldbewerking.
English
Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.

Summary

AI-Generated Summary

PDF22May 19, 2025