GEditBench v2 : Un benchmark aligné sur l'humain pour l'édition d'image générale

Résumé

Les récents progrès en édition d'images ont permis aux modèles de traiter des instructions complexes avec un réalisme impressionnant. Cependant, les cadres d'évaluation existants accusent un retard : les benchmarks actuels souffrent d'une couverture de tâches limitée, tandis que les métriques standard ne parviennent pas à capturer adéquatement la cohérence visuelle, c'est-à-dire la préservation de l'identité, de la structure et de la cohérence sémantique entre les images éditées et originales. Pour remédier à ces limitations, nous présentons GEditBench v2, un benchmark complet comprenant 1 200 requêtes utilisateur réelles couvrant 23 tâches, incluant une catégorie à ensemble ouvert dédiée aux instructions d'édition non contraintes et hors distribution au-delà des tâches prédéfinies. De plus, nous proposons PVC-Judge, un modèle d'évaluation par paires open-source pour la cohérence visuelle, entraîné via deux nouvelles pipelines de synthèse de données de préférence à régions découplées. Par ailleurs, nous construisons VCReward-Bench en utilisant des paires de préférence annotées par des experts pour évaluer l'alignement de PVC-Judge avec les jugements humains sur l'évaluation de la cohérence visuelle. Les expériences montrent que notre PVC-Judge atteint des performances d'évaluation à la pointe parmi les modèles open-source et dépasse même GPT-5.1 en moyenne. Enfin, en évaluant 16 modèles d'édition de pointe, nous montrons que GEditBench v2 permet une évaluation plus alignée sur l'humain, révélant des limitations critiques des modèles actuels et fournissant une base fiable pour faire progresser l'édition d'images précise.

English

Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.

GEditBench v2 : Un benchmark aligné sur l'humain pour l'édition d'image générale

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

Résumé

Support