ChatPaper.aiChatPaper

GIE-Bench: 텍스트 기반 이미지 편집을 위한 근거 평가 방향

GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

May 16, 2025
저자: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan
cs.AI

초록

자연어 지시를 사용하여 이미지를 편집하는 것은 시각적 콘텐츠를 수정하는 자연스럽고 표현력 있는 방법으로 자리 잡았으나, 이러한 모델의 성능을 평가하는 것은 여전히 도전적인 과제로 남아 있다. 기존의 평가 방법들은 종종 CLIP과 같은 이미지-텍스트 유사성 메트릭에 의존하는데, 이는 정밀도가 부족하다. 본 연구에서는 텍스트 기반 이미지 편집 모델을 보다 근거 있는 방식으로 평가하기 위한 새로운 벤치마크를 제안한다. 이 벤치마크는 두 가지 중요한 차원을 중심으로 설계되었다: (i) 기능적 정확성, 이는 의도된 변경이 성공적으로 적용되었는지 확인하기 위해 자동 생성된 객관식 질문을 통해 평가되며; (ii) 이미지 콘텐츠 보존, 이는 객체 인식 마스킹 기술과 보존 점수를 사용하여 이미지의 비대상 영역이 시각적으로 일관되게 유지되는지 확인한다. 이 벤치마크는 20개의 다양한 콘텐츠 카테고리에서 1000개 이상의 고품질 편집 예제를 포함하며, 각 예제는 상세한 편집 지시, 평가 질문, 공간적 객체 마스크로 주석 처리되어 있다. 우리는 텍스트 기반 이미지 편집 분야의 최신 플래그십 모델인 GPT-Image-1을 여러 최첨단 편집 모델과 비교하는 대규모 연구를 수행하고, 자동 메트릭을 인간 평가와 대조하여 검증한다. 결과는 GPT-Image-1이 지시 따르기 정확도에서 앞서지만, 종종 관련 없는 이미지 영역을 과도하게 수정하여 현재 모델 행동의 주요 트레이드오프를 강조한다. GIE-Bench는 텍스트 기반 이미지 편집의 보다 정확한 평가를 위한 확장 가능하고 재현 가능한 프레임워크를 제공한다.
English
Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.

Summary

AI-Generated Summary

PDF22May 19, 2025