GEditBench v2: Een op mensen afgestelde benchmark voor algemene beeldbewerking

Samenvatting

Recente vooruitgang in beeldbewerking heeft modellen in staat gesteld om complexe instructies met indrukwekkend realisme te verwerken. Bestaande evaluatieramen lopen hier echter op achter: huidige benchmarks kampen met een beperkte taakdekking, terwijl standaardmetrieken er niet in slagen om visuele consistentie adequaat te vatten, dat wil zeggen het behoud van identiteit, structuur en semantische samenhang tussen bewerkte en originele afbeeldingen. Om deze beperkingen aan te pakken, introduceren we GEditBench v2, een uitgebreide benchmark met 1.200 real-world gebruikersquery's verspreid over 23 taken, inclusief een speciale open-set categorie voor onbeperkte, out-of-distribution bewerkinstructies die verder gaan dan vooraf gedefinieerde taken. Verder stellen we PVC-Judge voor, een open-source paarsgewijs beoordelingsmodel voor visuele consistentie, getraind via twee nieuwe pijplijnen voor de synthese van voorkeursdata met ontkoppelde regio's. Daarnaast construeren we VCReward-Bench met door experts geannoteerde voorkeursparen om de afstemming van PVC-Judge met menselijke oordelen over visuele consistentie-evaluatie te beoordelen. Experimenten tonen aan dat onze PVC-Judge state-of-the-art evaluatieprestaties behaalt onder open-source modellen en gemiddeld zelfs GPT-5.1 overtreft. Ten slotte tonen we, door 16 frontier-bewerkingsmodellen te benchmarken, aan dat GEditBench v2 een meer menselijk-afgestemde evaluatie mogelijk maakt, waarbij kritieke beperkingen van huidige modellen worden blootgelegd en een betrouwbare basis wordt geboden voor het bevorderen van precieze beeldbewerking.

English

Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.

GEditBench v2: Een op mensen afgestelde benchmark voor algemene beeldbewerking

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

Samenvatting

Support