ChatPaper.aiChatPaper

GIE-Bench: テキスト誘導型画像編集のための接地評価に向けて

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

May 16, 2025
著者: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI

要旨

自然言語による指示を用いた画像編集は、視覚的コンテンツを変更するための自然で表現力豊かな方法となっているが、そのようなモデルの性能を評価することは依然として困難である。既存の評価手法は、CLIPのような画像-テキスト類似性メトリクスに依存することが多く、精度に欠ける。本研究では、テキストガイド画像編集モデルをより確実に評価するための新しいベンチマークを導入し、以下の2つの重要な次元に焦点を当てる:(i) 機能的正確性。これは、意図された変更が正しく適用されたかどうかを検証するために自動生成された多肢選択問題を通じて評価される。(ii) 画像内容の保存。これは、オブジェクトを意識したマスキング技術と保存スコアリングを用いて、画像の非ターゲット領域が視覚的に一貫していることを保証する。このベンチマークには、20の多様なコンテンツカテゴリーにわたる1000以上の高品質な編集例が含まれており、それぞれ詳細な編集指示、評価質問、空間的オブジェクトマスクが注釈付けされている。我々は、テキストガイド画像編集分野の最新の旗艦モデルであるGPT-Image-1を、いくつかの最先端編集モデルと比較する大規模な研究を実施し、自動メトリクスを人間の評価に対して検証した。結果は、GPT-Image-1が指示の正確性において優れているものの、無関係な画像領域を過剰に変更することが多いことを示しており、現在のモデル動作における重要なトレードオフを浮き彫りにしている。GIE-Benchは、テキストガイド画像編集のより正確な評価を進めるためのスケーラブルで再現可能なフレームワークを提供する。
English
Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.

Summary

AI-Generated Summary

PDF22May 19, 2025