ChatPaper.aiChatPaper

GEditBench v2: 일반 이미지 편집을 위한 인간 정렬 벤치마크

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

March 30, 2026
저자: Zhangqi Jiang, Zheng Sun, Xianfang Zeng, Yufeng Yang, Xuanyang Zhang, Yongliang Wu, Wei Cheng, Gang Yu, Xu Yang, Bihan Wen
cs.AI

초록

최근 이미지 편집 분야의 발전으로 모델들은 인상적인 사실주의로 복잡한 지시를 처리할 수 있게 되었습니다. 그러나 기존 평가 체계는 이에 미치지 못하는 상황입니다. 현재 벤치마크는 제한된 작업 범위를 가지며, 표준 지표들은 편집된 이미지와 원본 이미지 간의 정체성, 구조, 의미적 일관성의 보존을 의미하는 시각적 일관성을 충분히 포착하지 못합니다. 이러한 한계를 해결하기 위해 본 논문에서는 GEditBench v2를 소개합니다. 이는 23개 작업에 걸친 1,200개의 실제 사용자 쿼리로 구성된 포괄적인 벤치마크로, 사전 정의된 작업을 벗어난 제약 없는 분포 외 편집 지시를 위한 전용 오픈셋 범주를 포함합니다. 더 나아가, 두 가지 새로운 영역-분리 선호도 데이터 합성 파이프라인을 통해 훈련된 시각적 일관성 평가용 오픈소스 pairwise 평가 모델인 PVC-Judge를 제안합니다. 또한 전문가가 주석을 단 선호도 쌍을 사용하여 VCReward-Bench를 구축하여, 시각적 일관성 평가에서 PVC-Judge의 인간 판단과의 정렬 정도를 평가합니다. 실험 결과, 우리의 PVC-Judge는 오픈소스 모델 중 최고 수준의 평가 성능을 달성하며 평균적으로 GPT-5.1을 능가하는 것으로 나타났습니다. 마지막으로, 16개의 최첨단 편집 모델을 벤치마킹함으로써 GEditBench v2가 더욱 인간과 일치된 평가를 가능하게 하며, 현재 모델들의 중요한 한계를 드러내고 정밀 이미지 편집 기술 발전을 위한 신뢰할 수 있는 기반을 제공함을 보여줍니다.
English
Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.
PDF261April 1, 2026