DLEBench: Evaluación de la Capacidad de Edición de Objetos a Pequeña Escala para Modelos de Edición de Imágenes Basados en Instrucciones

Resumen

Se han logrado avances significativos en el campo de los Modelos de Edición de Imágenes Basados en Instrucciones (IIEMs, por sus siglas en inglés). Sin embargo, aunque estos modelos demuestran una adherencia plausible a las instrucciones y una fuerte capacidad de razonamiento en los puntos de referencia actuales, su habilidad para editar objetos pequeños sigue estando poco explorada, a pesar de su importancia para la edición local precisa y el refinamiento de detalles tanto en imágenes reales como generadas. En este artículo, presentamos DeepLookEditBench (DLEBench), el primer punto de referencia dedicado a evaluar las capacidades de los IIEMs en la edición de objetos a pequeña escala. Específicamente, construimos un banco de pruebas desafiante que comprende 1889 muestras distribuidas en siete tipos de instrucciones. En estas muestras, los objetos objetivo ocupan solo entre el 1% y el 10% del área de la imagen, cubriendo escenarios complejos como la oclusión parcial y la edición de múltiples objetos. Para garantizar una evaluación robusta en este punto de referencia, proponemos un protocolo de evaluación con rúbricas de puntuación refinadas para minimizar la subjetividad y la ambigüedad en dos criterios: Seguimiento de Instrucciones y Coherencia Visual. Este protocolo también introduce un marco de evaluación de modo dual (Modo Impulsado por Herramientas y Modo Guiado por Oracle) que aborda el desalineamiento entre el uso de Modelos de Lenguaje Multimodal como Jueces y los juicios humanos en DLEBench. Los resultados empíricos en 10 IIEMs revelan brechas de rendimiento significativas en la edición de objetos a pequeña escala, destacando la necesidad de puntos de referencia especializados para avanzar en esta capacidad.

English

Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.

DLEBench: Evaluación de la Capacidad de Edición de Objetos a Pequeña Escala para Modelos de Edición de Imágenes Basados en Instrucciones

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Resumen

Support