DLEBench:命令ベース画像編集モデルの小規模オブジェクト編集能力評価
DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model
February 27, 2026
著者: Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao
cs.AI
要旨
指示ベース画像編集モデル(IIEM)の分野では著しい進展が見られている。しかしながら、現行のベンチマークにおいてこれらのモデルが指示への妥当な従順性と強力な推論能力を示す一方で、実画像および生成画像双方における精密な局所編集と詳細調整にとって重要であるにもかかわらず、小規模オブジェクトの編集能力は十分に検証されていない。本論文では、IIEMの小規模オブジェクト編集能力を評価する初のベンチマークであるDeepLookEditBench(DLEBench)を提案する。具体的には、7種類の指示タイプにわたる1889サンプルから構成される挑戦的なテストベッドを構築した。これらのサンプルでは対象オブジェクトが画像面積の1%~10%のみを占め、部分的な遮蔽や複数オブジェクト編集といった複雑なシナリオを網羅している。本ベンチマークにおける頑健な評価を確保するため、指示追従性と視覚的一貫性という2つの基準における主観性と曖昧性を最小化する洗練された評価基準を備えた評価プロトコルを提案する。このプロトコルはまた、DLEBenchにおけるLMM-as-a-Judgeと人間の判断の不一致に対処するデュアルモード評価フレームワーク(ツール駆動モードとオラクル誘導モード)を導入する。10のIIEMにおける実証結果は、小規模オブジェクト編集における顕著な性能差を明らかにし、この能力を進展させるための専門的なベンチマークの必要性を浮き彫りにしている。
English
Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.