ChatPaper.aiChatPaper

GIE-Bench: Verso una Valutazione Fondata per la Modifica di Immagini Guidata da Testo

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

May 16, 2025
Autori: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI

Abstract

La modifica delle immagini utilizzando istruzioni in linguaggio naturale è diventata un modo naturale ed espressivo per alterare contenuti visivi; tuttavia, valutare le prestazioni di tali modelli rimane una sfida. Gli approcci di valutazione esistenti si basano spesso su metriche di similarità immagine-testo come CLIP, che mancano di precisione. In questo lavoro, introduciamo un nuovo benchmark progettato per valutare i modelli di modifica delle immagini guidata da testo in modo più fondato, lungo due dimensioni critiche: (i) correttezza funzionale, valutata tramite domande a scelta multipla generate automaticamente che verificano se la modifica intesa è stata applicata con successo; e (ii) preservazione del contenuto dell'immagine, che garantisce che le regioni non target dell'immagine rimangano visivamente consistenti utilizzando una tecnica di mascheramento consapevole degli oggetti e un punteggio di preservazione. Il benchmark include oltre 1000 esempi di modifica di alta qualità in 20 categorie di contenuto diverse, ciascuno annotato con istruzioni di modifica dettagliate, domande di valutazione e maschere spaziali degli oggetti. Abbiamo condotto uno studio su larga scala confrontando GPT-Image-1, l'ultimo modello di punta nel campo della modifica delle immagini guidata da testo, con diversi modelli di modifica all'avanguardia, e abbiamo validato le nostre metriche automatiche rispetto ai giudizi umani. I risultati mostrano che GPT-Image-1 è in testa per accuratezza nel seguire le istruzioni, ma spesso modifica eccessivamente regioni irrilevanti dell'immagine, evidenziando un compromesso chiave nel comportamento attuale del modello. GIE-Bench fornisce un framework scalabile e riproducibile per avanzare verso una valutazione più accurata della modifica delle immagini guidata da testo.
English
Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.
PDF32May 19, 2025