ChatPaper.aiChatPaper

GEditBench v2: 汎用画像編集のための人間志向ベンチマーク

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

March 30, 2026
著者: Zhangqi Jiang, Zheng Sun, Xianfang Zeng, Yufeng Yang, Xuanyang Zhang, Yongliang Wu, Wei Cheng, Gang Yu, Xu Yang, Bihan Wen
cs.AI

要旨

画像編集技術の最近の進歩により、モデルは複雑な指示を扱い、印象的な写実性を実現できるようになった。しかし、既存の評価フレームワークは遅れをとっている。現在のベンチマークはタスクカバレッジが狭く、標準的な評価指標は視覚的一貫性、すなわち編集画像と元画像の間の同一性、構造、意味的整合性の保存を適切に捉えられていない。これらの限界に対処するため、我々はGEditBench v2を提案する。これは23のタスクにわたる1,200件の実世界ユーザークエリからなる包括的ベンチマークであり、事前定義されたタスクを超えた制約のない分布外編集指示のための専用オープンセットカテゴリを含む。さらに、視覚的一貫性評価のためのオープンソースのペアワイズ評価モデルPVC-Judgeを提案する。これは2つの新しい領域分離型選好データ合成パイプラインにより学習された。加えて、専門家による注釈付き選好ペアを用いてVCReward-Benchを構築し、視覚的一貫性評価におけるPVC-Judgeの人間の判断との整合性を評価する。実験結果より、我々のPVC-Judgeはオープンソースモデルの中で最先端の評価性能を達成し、平均的にGPT-5.1をも凌駕することを示す。最後に、16の最先端編集モデルをベンチマークすることにより、GEditBench v2がより人間の判断に沿った評価を可能にし、現在のモデルの重大な限界を明らかにし、精密な画像編集の発展に向けた信頼性の高い基盤を提供することを示す。
English
Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.
PDF261April 1, 2026