DLEBench: 지시 기반 이미지 편집 모델의 소규모 객체 편집 능력 평가
DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model
February 27, 2026
저자: Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao
cs.AI
초록
지시 기반 이미지 편집 모델(IIEM) 분야에서 상당한 진전이 이루어졌습니다. 그러나 이러한 모델들이 현재 벤치마크에서 지시를 그럴듯하게 따르고 강력한 추론 능력을 보여주지만, 실제 및 생성된 이미지 모두에서 정밀한 지역 편집과 세부 사항 정교화에 중요함에도 불구하고 작은 객체 편집 능력은 충분히 연구되지 않았습니다. 본 논문에서는 IIEM의 소규모 객체 편집 능력을 평가하는 데 전념하는 최초의 벤치마크인 DeepLookEditBench(DLEBench)를 소개합니다. 구체적으로, 우리는 7가지 지시 유형에 걸쳐 1889개 샘플로 구성된 도전적인 테스트베드를 구축했습니다. 이 샘플들에서 대상 객체는 이미지 영역의 1%~10%만 차지하며, 부분적 폐색 및 다중 객체 편집과 같은 복잡한 시나리오를 다룹니다. 이 벤치마크에서 견고한 평가를 보장하기 위해, 우리는 두 가지 기준(지시 준수 및 시각적 일관성)에서 주관성과 모호성을 최소화하기 위해 세분화된 채점 기준을 가진 평가 프로토콜을 제안합니다. 이 프로토콜은 또한 DLEBench에서 LMM-as-a-Judge와 인간 판단 간의 불일치를 해결하는 이중 모드 평가 프레임워크(도구 주도 및 오라클 안내 모드)를 도입합니다. 10개의 IIEM에 대한 실험 결과는 소규모 객체 편집에서 상당한 성능 격차를 드러내며, 이러한 능력을 발전시키기 위한 전문화된 벤치마크의 필요성을 강조합니다.
English
Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.