DLEBench: Avaliando a Capacidade de Edição de Objetos em Pequena Escala para Modelos de Edição de Imagens Baseados em Instruções

Resumo

Significativos progressos têm sido alcançados no campo dos Modelos de Edição de Imagem Baseados em Instruções (IIEMs, do inglês *Instruction-based Image Editing Models*). No entanto, embora esses modelos demonstrem uma aderência plausível às instruções e uma forte capacidade de raciocínio nos *benchmarks* atuais, a sua capacidade de editar objetos pequenos permanece pouco explorada, apesar da sua importância para uma edição local precisa e para o refino de detalhes em imagens reais e geradas. Neste artigo, apresentamos o *DeepLookEditBench* (DLEBench), o primeiro *benchmark* dedicado a avaliar as capacidades dos IIEMs na edição de objetos em pequena escala. Especificamente, construímos um banco de testes desafiador composto por 1889 amostras abrangendo sete tipos de instrução. Nestas amostras, os objetos-alvo ocupam apenas 1% a 10% da área da imagem, cobrindo cenários complexos, como oclusão parcial e edição multi-objeto. Para garantir uma avaliação robusta neste *benchmark*, propomos um protocolo de avaliação com critérios de pontuação refinados para minimizar a subjetividade e a ambiguidade em dois critérios: Seguimento da Instrução e Consistência Visual. Este protocolo introduz também uma estrutura de avaliação de modo duplo (Modo Orientado por Ferramenta e Modo Orientado por *Oracle*) que aborda o desalinhamento entre o julgamento por LMM (*Large Multimodal Model*) e os julgamentos humanos no DLEBench. Os resultados empíricos em 10 IIEMs revelam lacunas significativas de desempenho na edição de objetos em pequena escala, destacando a necessidade de *benchmarks* especializados para avançar esta capacidade.

English

Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.

DLEBench: Avaliando a Capacidade de Edição de Objetos em Pequena Escala para Modelos de Edição de Imagens Baseados em Instruções

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Resumo

Support