PaintBench: Avaliação determinística de edição visual precisa

Resumo

Embora os modelos multimodais atuais sejam proficientes em edição visual de formato livre, executar edições precisas de resposta única ainda representa um obstáculo importante. Para investigar esse desafio, apresentamos o PaintBench, um benchmark dinamicamente escalável que aborda 20 operações fundamentais de edição visual precisa em quatro categorias: transformação geométrica, manipulação estrutural, alteração de cor e raciocínio simbólico. A geração procedural com complexidade configurável possibilita um conjunto de avaliação efetivamente infinito e resistente a contaminação, e a avaliação determinística em nível de pixel elimina a dependência de modelos avaliadores propensos a viés. Em 11 modelos de edição de imagem, observamos desempenho geralmente baixo, com o atual líder da indústria com melhor desempenho obtendo apenas 17,1% (mIoU). A decomposição de tarefas revela tipos de operação especialmente desafiadores (transformação geométrica, a maioria das manipulações estruturais, alteração de cor baseada em fórmula) e especializações específicas de modelo. Diagnósticos detalhados do benchmark mostram ainda degradações de desempenho induzidas por variações de cena na contagem de objetos, complexidade de fundo, esquema de cores e tamanho da região de edição. Para testar a generalização das pontuações do PaintBench para o desempenho em tarefas aplicadas, criamos uma avaliação procedural e determinística para edição de visualização de dados (TinyGrafixBench) e encontramos uma forte correlação linear com as pontuações do PaintBench (R² = 0,91, p < 0,001). No geral, o PaintBench fornece uma base rigorosa para medir e impulsionar o progresso na edição visual multimodal precisa.

English

While current multimodal models are proficient at open-ended visual editing, executing precise single-answer edits remains an important obstacle. To probe this challenge, we introduce PaintBench, a dynamically scalable benchmark targeting 20 fundamental precise visual editing operations across four categories: geometric transformation, structural manipulation, color change, and symbolic reasoning. Procedural generation with configurable complexity enables an effectively infinite, contamination-resistant evaluation suite, and deterministic pixel-level evaluation eliminates reliance on bias-prone judge models. Across 11 image editing models, we find overall low performance, with the current highest-performing industry leader scoring only 17.1% (mIoU). Task decomposition reveals especially challenging operation types (geometric transformation, most structural manipulation, formula-based color change) and model-specific specializations. Fine-grained benchmark diagnostics further show performance degradations induced by scene variations in object count, background complexity, color scheme, and edit-region size. To test generalization of PaintBench scores to applied task performance, we create a procedural, deterministic evaluation for data visualization editing (TinyGrafixBench) and find strong linear correlation with PaintBench scores (R^2 = 0.91, p < 0.001). Altogether, PaintBench provides a rigorous foundation for measuring and driving progress in precise multimodal visual editing.