GEditBench v2: Un Benchmark Alineado con Humanos para la Edición General de Imágenes

Resumen

Los recientes avances en edición de imágenes han permitido a los modelos manejar instrucciones complejas con un realismo impresionante. Sin embargo, los marcos de evaluación existentes se han quedado rezagados: los puntos de referencia actuales adolecen de una cobertura limitada de tareas, mientras que las métricas estándar no logran capturar adecuadamente la consistencia visual, es decir, la preservación de la identidad, la estructura y la coherencia semántica entre las imágenes editadas y las originales. Para abordar estas limitaciones, presentamos GEditBench v2, un punto de referencia integral con 1.200 consultas de usuarios del mundo real que abarcan 23 tareas, incluyendo una categoría de conjunto abierto dedicada a instrucciones de edición no restringidas y fuera de distribución, más allá de las tareas predefinidas. Además, proponemos PVC-Judge, un modelo de evaluación por pares de código abierto para la consistencia visual, entrenado mediante dos nuevos pipelines de síntesis de datos de preferencia desacoplados por regiones. Asimismo, construimos VCReward-Bench utilizando pares de preferencia anotados por expertos para evaluar la alineación de PVC-Judge con los juicios humanos en la evaluación de la consistencia visual. Los experimentos muestran que nuestro PVC-Judge logra un rendimiento de evaluación de vanguardia entre los modelos de código abierto e incluso supera a GPT-5.1 en promedio. Finalmente, al evaluar comparativamente 16 modelos de edición de última generación, demostramos que GEditBench v2 permite una evaluación más alineada con los criterios humanos, revelando limitaciones críticas de los modelos actuales y proporcionando una base confiable para avanzar en la edición precisa de imágenes.

English

Recent advances in image editing have enabled models to handle complex instructions with impressive realism. However, existing evaluation frameworks lag behind: current benchmarks suffer from narrow task coverage, while standard metrics fail to adequately capture visual consistency, i.e., the preservation of identity, structure and semantic coherence between edited and original images. To address these limitations, we introduce GEditBench v2, a comprehensive benchmark with 1,200 real-world user queries spanning 23 tasks, including a dedicated open-set category for unconstrained, out-of-distribution editing instructions beyond predefined tasks. Furthermore, we propose PVC-Judge, an open-source pairwise assessment model for visual consistency, trained via two novel region-decoupled preference data synthesis pipelines. Besides, we construct VCReward-Bench using expert-annotated preference pairs to assess the alignment of PVC-Judge with human judgments on visual consistency evaluation. Experiments show that our PVC-Judge achieves state-of-the-art evaluation performance among open-source models and even surpasses GPT-5.1 on average. Finally, by benchmarking 16 frontier editing models, we show that GEditBench v2 enables more human-aligned evaluation, revealing critical limitations of current models, and providing a reliable foundation for advancing precise image editing.

GEditBench v2: Un Benchmark Alineado con Humanos para la Edición General de Imágenes

GEditBench v2: A Human-Aligned Benchmark for General Image Editing

Resumen

Support