DLEBench: Valutazione della Capacità di Modifica di Oggetti in Piccola Scala per Modelli di Modifica Immagine basati su Istruzioni
DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model
February 27, 2026
Autori: Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao
cs.AI
Abstract
Sono stati compiuti progressi significativi nel campo dei Modelli di Modifica di Immagini basati su Istruzioni (IIEM). Tuttavia, sebbene questi modelli dimostrino un'aderenza plausibile alle istruzioni e una forte capacità di ragionamento sugli attuali benchmark, la loro capacità di modificare oggetti di piccole dimensioni rimane poco esplorata, nonostante la sua importanza per una modifica locale precisa e per la rifinitura dei dettagli sia nelle immagini reali che in quelle generate. In questo articolo, presentiamo DeepLookEditBench (DLEBench), il primo benchmark dedicato a valutare le capacità degli IIEM nella modifica di oggetti su piccola scala. Nello specifico, abbiamo costruito un banco di prova impegnativo comprendente 1889 campioni, suddivisi in sette tipologie di istruzioni. In questi campioni, gli oggetti target occupano solo l'1%-10% dell'area dell'immagine, coprendo scenari complessi come l'occlusione parziale e la modifica multi-oggetto. Per garantire una valutazione robusta su questo benchmark, proponiamo un protocollo di valutazione con griglie di punteggio raffinate per minimizzare la soggettività e l'ambiguità in due criteri: Rispetto dell'Istruzione e Coerenza Visiva. Questo protocollo introduce anche una struttura di valutazione dual-mode (Modalità Guidata da Strumento e Modalità Guidata da Oracle) per affrontare il disallineamento tra il giudizio tramite LMM (Large Multimodal Model) e i giudizi umani su DLEBench. I risultati empirici su 10 IIEM rivelano significative lacune prestazionali nella modifica di oggetti su piccola scala, evidenziando la necessità di benchmark specializzati per far progredire questa capacità.
English
Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.