DLEBench: Оценка способности моделей редактирования изображений на основе инструкций к работе с мелкими объектами

Аннотация

В области моделей редактирования изображений на основе инструкций (IIEM) достигнут значительный прогресс. Однако, хотя эти модели демонстрируют правдоподобное следование инструкциям и высокие способности к рассуждению на существующих бенчмарках, их возможность редактирования мелких объектов остается недостаточно изученной, несмотря на важность этой задачи для точного локального редактирования и улучшения деталей как в реальных, так и в сгенерированных изображениях. В данной статье мы представляем DeepLookEditBench (DLEBench) — первый бенчмарк, специально предназначенный для оценки способностей IIEM к редактированию объектов малого масштаба. В частности, мы создали сложный тестовый набор, включающий 1889 образцов по семи типам инструкций. В этих образцах целевые объекты занимают всего 1–10% площади изображения, охватывая сложные сценарии, такие как частичное перекрытие и редактирование множественных объектов. Для обеспечения надежной оценки на этом бенчмарке мы предлагаем протокол оценки с уточненными критериями балльной системы, чтобы минимизировать субъективность и неоднозначность по двум критериям: Следование инструкции и Визуальная согласованность. Этот протокол также introduces двухрежимную систему оценки (Инструментальный и Оракульный режимы), решающую проблему расхождения между оценкой LMM-as-a-Judge и человеческими суждениями на DLEBench. Эмпирические результаты для 10 IIEM выявляют значительные разрывы в производительности при редактировании объектов малого масштаба, подчеркивая необходимость специализированных бенчмарков для развития данной способности.

English

Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.

DLEBench: Оценка способности моделей редактирования изображений на основе инструкций к работе с мелкими объектами

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Аннотация

Support