Edit-Compass & EditReward-Compass: Um Benchmark Unificado para Edição de Imagens e Modelagem de Recompensa

Resumo

Modelos recentes de edição de imagens alcançaram progressos notáveis no acompanhamento de instruções, na compreensão multimodal e na edição visual complexa. No entanto, os benchmarks existentes frequentemente falham em refletir fielmente o julgamento humano, especialmente para modelos de fronteira robustos, devido à limitada dificuldade das tarefas e a protocolos de avaliação pouco refinados. Paralelamente, modelos de recompensa tornaram-se cada vez mais importantes para a otimização de edição de imagens baseada em RL, mas os benchmarks existentes para modelos de recompensa ainda dependem de cenários de avaliação irrealistas que se desviam das situações práticas de RL. Essas limitações dificultam uma avaliação confiável tanto dos modelos de edição de imagens quanto dos modelos de recompensa. Para enfrentar esses desafios, apresentamos o Edit-Compass e o EditReward-Compass, um conjunto unificado de avaliação para edição de imagens e modelagem de recompensas. O Edit-Compass contém 2.388 instâncias cuidadosamente anotadas, abrangendo seis categorias de tarefas progressivamente desafiadoras, que incluem capacidades como raciocínio sobre conhecimento de mundo, raciocínio visual e edição de múltiplas imagens. Além da ampla cobertura de tarefas, o Edit-Compass adota um quadro de avaliação multidimensional refinado, baseado em raciocínio estruturado e rubricas de pontuação cuidadosamente elaboradas. Paralelamente, o EditReward-Compass contém 2.251 pares de preferência que simulam cenários realistas de modelagem de recompensas durante a otimização por RL.

English

Recent image editing models have achieved remarkable progress in instruction following, multimodal understanding, and complex visual editing. However, existing benchmarks often fail to faithfully reflect human judgment, especially for strong frontier models, due to limited task difficulty and coarse-grained evaluation protocols. In parallel, reward models have become increasingly important for RL-based image editing optimization, yet existing reward model benchmarks still rely on unrealistic evaluation settings that deviate from practical RL scenarios. These limitations hinder reliable assessment of both image editing models and reward models. To address these challenges, we introduce Edit-Compass and EditReward-Compass, a unified evaluation suite for image editing and reward modeling. Edit-Compass contains 2,388 carefully annotated instances spanning six progressively challenging task categories, covering capabilities such as world knowledge reasoning, visual reasoning, and multi-image editing. Beyond broad task coverage, Edit-Compass adopts a fine-grained multidimensional evaluation framework based on structured reasoning and carefully designed scoring rubrics. In parallel, EditReward-Compass contains 2,251 preference pairs that simulate realistic reward modeling scenarios during RL optimization.