GEditBench v2: un benchmark allineato all'umano per l'editing generale di immagini

Abstract

I recenti progressi nell'editing di immagini hanno consentito ai modelli di gestire istruzioni complesse con un realismo impressionante. Tuttavia, i framework di valutazione esistenti sono in ritardo: gli attuali benchmark soffrono di una copertura ristretta delle attività, mentre le metriche standard non riescono a catturare adeguatamente la coerenza visiva, ovvero la preservazione dell'identità, della struttura e della coerenza semantica tra le immagini modificate e quelle originali. Per affrontare queste limitazioni, introduciamo GEditBench v2, un benchmark completo con 1.200 query di utenti reali che coprono 23 attività, inclusa una categoria open-set dedicata per istruzioni di editing non vincolate e fuori distribuzione, al di là dei compiti predefiniti. Inoltre, proponiamo PVC-Judge, un modello di valutazione pairwise open-source per la coerenza visiva, addestrato tramite due nuove pipeline di sintesi di dati di preferenza a regione disaccoppiata. Inoltre, costruiamo VCReward-Bench utilizzando coppie di preferenza annotate da esperti per valutare l'allineamento di PVC-Judge con i giudizi umani sulla valutazione della coerenza visiva. Gli esperimenti mostrano che il nostro PVC-Judge raggiunge prestazioni di valutazione allo stato dell'arte tra i modelli open-source e supera persino GPT-5.1 in media. Infine, valutando 16 modelli di editing all'avanguardia, dimostriamo che GEditBench v2 consente una valutazione più allineata con l'umano, rivelando limitazioni critiche dei modelli attuali e fornendo una base affidabile per far progredire l'editing preciso delle immagini.

English

Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.

GEditBench v2: un benchmark allineato all'umano per l'editing generale di immagini

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

Abstract

Support