GEditBench v2: Человеко-ориентированный бенчмарк для общей редактирования изображений

Аннотация

Последние достижения в области редактирования изображений позволили моделям обрабатывать сложные инструкции с впечатляющим реализмом. Однако существующие системы оценки отстают: текущие бенчмарки страдают от узкого охвата задач, в то время как стандартные метрики неадекватно отражают визуальную согласованность, то есть сохранение идентичности, структуры и семантической целостности между отредактированными и исходными изображениями. Для преодоления этих ограничений мы представляем GEditBench v2 — комплексный бенчмарк, содержащий 1200 пользовательских запросов из реальной практики, охватывающих 23 задачи, включая специальную открытую категорию для неограниченных инструкций по редактированию, выходящих за рамки предопределенных задач. Кроме того, мы предлагаем PVC-Judge, модель с открытым исходным кодом для парного оценивания визуальной согласованности, обученную с помощью двух новых конвейеров синтеза предпочтений с декомпозицией по регионам. Дополнительно мы создали VCReward-Bench на основе экспертно размеченных пар предпочтений для оценки соответствия PVC-Judge человеческим суждениям при оценке визуальной согласованности. Эксперименты показывают, что наша модель PVC-Judge демонстрирует наилучшую производительность среди моделей с открытым исходным кодом и даже превосходит в среднем GPT-5.1. Наконец, проведя тестирование 16 передовых моделей редактирования, мы показываем, что GEditBench v2 обеспечивает более человеко-ориентированную оценку, выявляет критические ограничения текущих моделей и предоставляет надежную основу для развития точного редактирования изображений.

English

Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.

GEditBench v2: Человеко-ориентированный бенчмарк для общей редактирования изображений

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

Аннотация

Support