PaintBench: Deterministische evaluatie van nauwkeurige visuele bewerking

Samenvatting

Hoewel huidige multimodale modellen bekwaam zijn in open-einde visuele bewerking, blijft het uitvoeren van precieze enkelvoudige antwoordbewerkingen een belangrijke hindernis. Om deze uitdaging te onderzoeken introduceren we PaintBench, een dynamisch schaalbare benchmark die zich richt op 20 fundamentele precieze visuele bewerkingen in vier categorieën: geometrische transformatie, structurele manipulatie, kleurverandering en symbolisch redeneren. Procedurele generatie met configureerbare complexiteit maakt een effectief oneindige, contaminatiebestendige evaluatiesuite mogelijk, en deterministische evaluatie op pixelniveau elimineert de afhankelijkheid van vooringenomen beoordelingsmodellen. Bij 11 modellen voor beeldbewerking vinden we over het algemeen lage prestaties, waarbij de huidige best presterende industriële leider slechts 17,1% (mIoU) scoort. Taakdecompositie onthult bijzonder uitdagende bewerkingstypen (geometrische transformatie, de meeste structurele manipulatie, op formules gebaseerde kleurverandering) en modelspecifieke specialisaties. Fijnmazige benchmarkdiagnostiek toont verder prestatieverminderingen aan die worden veroorzaakt door scènevariaties in objectaantal, achtergrondcomplexiteit, kleurenschema en grootte van het bewerkingsgebied. Om de generalisatie van PaintBench-scores naar prestaties bij toegepaste taken te testen, creëren we een procedurele, deterministische evaluatie voor datavisualisatiebewerking (TinyGrafixBench) en vinden we een sterke lineaire correlatie met PaintBench-scores (R² = 0,91, p < 0,001). Al met al biedt PaintBench een rigoureuze basis voor het meten en stimuleren van vooruitgang in precieze multimodale visuele bewerking.

English

While current multimodal models are proficient at open-ended visual editing, executing precise single-answer edits remains an important obstacle. To probe this challenge, we introduce PaintBench, a dynamically scalable benchmark targeting 20 fundamental precise visual editing operations across four categories: geometric transformation, structural manipulation, color change, and symbolic reasoning. Procedural generation with configurable complexity enables an effectively infinite, contamination-resistant evaluation suite, and deterministic pixel-level evaluation eliminates reliance on bias-prone judge models. Across 11 image editing models, we find overall low performance, with the current highest-performing industry leader scoring only 17.1% (mIoU). Task decomposition reveals especially challenging operation types (geometric transformation, most structural manipulation, formula-based color change) and model-specific specializations. Fine-grained benchmark diagnostics further show performance degradations induced by scene variations in object count, background complexity, color scheme, and edit-region size. To test generalization of PaintBench scores to applied task performance, we create a procedural, deterministic evaluation for data visualization editing (TinyGrafixBench) and find strong linear correlation with PaintBench scores (R^2 = 0.91, p < 0.001). Altogether, PaintBench provides a rigorous foundation for measuring and driving progress in precise multimodal visual editing.