Edit-Compass & EditReward-Compass: Een uniforme benchmark voor beeldbewerking en beloningsmodellering

Samenvatting

Recente modellen voor beeldbewerking hebben opmerkelijke vooruitgang geboekt in het opvolgen van instructies, multimodaal begrip en complexe visuele bewerking. Echter, bestaande benchmarks slagen er vaak niet in om menselijke oordelen getrouw weer te geven, vooral voor sterke grensverleggende modellen, vanwege beperkte taakmoeilijkheid en grofkorrelige evaluatieprotocollen. Parallel daaraan zijn beloningsmodellen steeds belangrijker geworden voor op RL gebaseerde optimalisatie van beeldbewerking, maar bestaande benchmarks voor beloningsmodellen zijn nog steeds gebaseerd op onrealistische evaluatieomgevingen die afwijken van praktische RL-scenario's. Deze beperkingen belemmeren een betrouwbare beoordeling van zowel beeldbewerkingsmodellen als beloningsmodellen. Om deze uitdagingen aan te pakken, introduceren we Edit-Compass en EditReward-Compass, een uniforme evaluatiesuite voor beeldbewerking en beloningsmodellering. Edit-Compass bevat 2.388 zorgvuldig geannoteerde instanties verspreid over zes progressief uitdagende taakcategorieën, die capaciteiten omvatten zoals wereldkennisredenering, visuele redenering en meervoudige beeldbewerking. Naast brede taakdekking hanteert Edit-Compass een fijnmazig multidimensionaal evaluatiekader gebaseerd op gestructureerde redenering en zorgvuldig ontworpen beoordelingsrichtlijnen. Parallel daaraan bevat EditReward-Compass 2.251 voorkeursparen die realistische scenario's voor beloningsmodellering simuleren tijdens RL-optimalisatie.

English

Recent image editing models have achieved remarkable progress in instruction following, multimodal understanding, and complex visual editing. However, existing benchmarks often fail to faithfully reflect human judgment, especially for strong frontier models, due to limited task difficulty and coarse-grained evaluation protocols. In parallel, reward models have become increasingly important for RL-based image editing optimization, yet existing reward model benchmarks still rely on unrealistic evaluation settings that deviate from practical RL scenarios. These limitations hinder reliable assessment of both image editing models and reward models. To address these challenges, we introduce Edit-Compass and EditReward-Compass, a unified evaluation suite for image editing and reward modeling. Edit-Compass contains 2,388 carefully annotated instances spanning six progressively challenging task categories, covering capabilities such as world knowledge reasoning, visual reasoning, and multi-image editing. Beyond broad task coverage, Edit-Compass adopts a fine-grained multidimensional evaluation framework based on structured reasoning and carefully designed scoring rubrics. In parallel, EditReward-Compass contains 2,251 preference pairs that simulate realistic reward modeling scenarios during RL optimization.