GEditBench v2: Ein menschenorientierter Benchmark für allgemeine Bildbearbeitung

Zusammenfassung

Jüngste Fortschritte in der Bildbearbeitung ermöglichen es Modellen, komplexe Anweisungen mit beeindruckendem Realismus umzusetzen. Bestehende Evaluierungsframeworks hinken dieser Entwicklung jedoch hinterher: Aktuelle Benchmarks weisen eine zu geringe Aufgabendeckung auf, und Standardmetriken erfassen nicht ausreichend die visuelle Konsistenz – also die Bewahrung von Identität, Struktur und semantischer Kohärenz zwischen bearbeiteten und Originalbildern. Um diese Defizite zu adressieren, führen wir GEditBench v2 ein, einen umfassenden Benchmark mit 1.200 realen Nutzeranfragen, die 23 Aufgaben umfassen, inklusive einer dedizierten Open-Set-Kategorie für ungebundene Bearbeitungsanweisungen außerhalb der vordefinierten Aufgaben. Zudem präsentieren wir PVC-Judge, ein Open-Source-Modell zur paarweisen Bewertung visueller Konsistenz, das mittels zweier neuartiger, regionsentkoppelter Pipelines für Präferenzdatensynthese trainiert wurde. Ergänzend konstruieren wir VCReward-Bench mit expertengestützten Präferenzpaaren, um die Übereinstimmung von PVC-Judge mit menschlichen Bewertungen bei der visuellen Konsistenzbewertung zu überprüfen. Experimente zeigen, dass unser PVC-Judge unter Open-Source-Modellen state-of-the-art Evaluierungsleistung erzielt und im Durchschnitt sogar GPT-5.1 übertrifft. Abschließend demonstrieren wir durch das Benchmarking von 16 führenden Bearbeitungsmodellen, dass GEditBench v2 eine stärker menschlich-abgestimmte Evaluation ermöglicht, kritische Grenzen aktueller Modelle aufdeckt und eine verlässliche Grundlage für die Weiterentwicklung präziser Bildbearbeitung schafft.

English

Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.

GEditBench v2: Ein menschenorientierter Benchmark für allgemeine Bildbearbeitung

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

Zusammenfassung

Support