PaintBench: 精密な視覚編集の決定論的評価
PaintBench: Deterministic Evaluation of Precise Visual Editing
May 29, 2026
著者: Kai Xu, Ellis Brown, Shrikar Madhu, Rob Fergus, He He, Saining Xie
cs.AI
要旨
現在のマルチモーダルモデルは自由形式のビジュアル編集に長けている一方で、正確な単一回答の編集を実行することは依然として重要な障壁である。この課題を探求するため、我々はPaintBenchを導入する。これは、幾何変換、構造操作、色変更、記号推論の4カテゴリにわたる20の基本的な精密ビジュアル編集操作を対象とした動的にスケーラブルなベンチマークである。構成可能な複雑性を持つ手続き的生成により、実質的に無限で汚染耐性のある評価スイートが可能となり、決定論的なピクセルレベル評価はバイアスを生じやすい判定モデルへの依存を排除する。11の画像編集モデル全体で、全体的に低い性能が見られ、現在最高性能の業界リーダーでもスコアはわずか17.1%(mIoU)であった。タスク分解により、特に困難な操作タイプ(幾何変換、ほとんどの構造操作、数式ベースの色変更)とモデル固有の専門化が明らかになった。さらに、詳細なベンチマーク診断により、オブジェクト数、背景の複雑さ、配色、編集領域サイズにおけるシーン変動によって引き起こされる性能低下が示された。PaintBenchスコアの応用タスク性能への一般化をテストするため、データ可視化編集(TinyGrafixBench)に対する手続き的かつ決定論的な評価を作成し、PaintBenchスコアとの強い線形相関(R^2 = 0.91, p < 0.001)を確認した。総じて、PaintBenchは精密なマルチモーダルビジュアル編集における進歩を測定し推進するための厳密な基盤を提供する。
English
While current multimodal models are proficient at open-ended visual editing, executing precise single-answer edits remains an important obstacle. To probe this challenge, we introduce PaintBench, a dynamically scalable benchmark targeting 20 fundamental precise visual editing operations across four categories: geometric transformation, structural manipulation, color change, and symbolic reasoning. Procedural generation with configurable complexity enables an effectively infinite, contamination-resistant evaluation suite, and deterministic pixel-level evaluation eliminates reliance on bias-prone judge models. Across 11 image editing models, we find overall low performance, with the current highest-performing industry leader scoring only 17.1% (mIoU). Task decomposition reveals especially challenging operation types (geometric transformation, most structural manipulation, formula-based color change) and model-specific specializations. Fine-grained benchmark diagnostics further show performance degradations induced by scene variations in object count, background complexity, color scheme, and edit-region size. To test generalization of PaintBench scores to applied task performance, we create a procedural, deterministic evaluation for data visualization editing (TinyGrafixBench) and find strong linear correlation with PaintBench scores (R^2 = 0.91, p < 0.001). Altogether, PaintBench provides a rigorous foundation for measuring and driving progress in precise multimodal visual editing.