GEditBench v2: Um Benchmark Alinhado ao Humano para Edição Geral de Imagens

Resumo

Os recentes avanços na edição de imagens permitiram que os modelos processassem instruções complexas com um realismo impressionante. No entanto, as estruturas de avaliação existentes estão defasadas: os benchmarks atuais sofrem com uma cobertura limitada de tarefas, enquanto as métricas padrão falham em capturar adequadamente a consistência visual, ou seja, a preservação da identidade, estrutura e coerência semântica entre as imagens editadas e originais. Para superar essas limitações, apresentamos o GEditBench v2, um benchmark abrangente com 1.200 consultas de utilizadores do mundo real, abrangendo 23 tarefas, incluindo uma categoria de conjunto aberto dedicada a instruções de edição não restritas e fora da distribuição, para além das tarefas predefinidas. Adicionalmente, propomos o PVC-Judge, um modelo de avaliação pairwise de código aberto para consistência visual, treinado através de dois novos pipelines de síntese de dados de preferência com regiões dissociadas. Além disso, construímos o VCReward-Bench utilizando pares de preferência anotados por especialistas para avaliar o alinhamento do PVC-Judge com os julgamentos humanos na avaliação da consistência visual. Os experimentos mostram que o nosso PVC-Judge alcança um desempenho de avaliação state-of-the-art entre os modelos de código aberto e supera, em média, até mesmo o GPT-5.1. Por fim, ao avaliar 16 modelos de edição de ponta, demonstramos que o GEditBench v2 permite uma avaliação mais alinhada com o julgamento humano, revelando limitações críticas dos modelos atuais e fornecendo uma base confiável para o avanço da edição precisa de imagens.

English

Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.

GEditBench v2: Um Benchmark Alinhado ao Humano para Edição Geral de Imagens

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

Resumo

Support