DLEBench: Bewertung der Fähigkeit zur Bearbeitung kleinskaliger Objekte bei instruktionsbasierten Bildbearbeitungsmodellen

Zusammenfassung

Im Bereich der instruktionsbasierter Bildbearbeitungsmodelle (IIEMs) wurden bedeutende Fortschritte erzielt. Allerdings ist die Fähigkeit dieser Modelle, kleine Objekte zu bearbeiten, trotz ihrer Bedeutung für präzise lokale Bearbeitungen und die Verfeinerung von Details in realen und generierten Bildern bisher wenig erforscht, obwohl sie auf aktuellen Benchmarks eine plausible Befolgung von Anweisungen und starke Reasoning-Fähigkeiten demonstrieren. In diesem Artikel stellen wir DeepLookEditBench (DLEBench) vor, den ersten Benchmark, der speziell zur Bewertung der Fähigkeiten von IIEMs bei der Bearbeitung kleinformatiger Objekte entwickelt wurde. Konkret konstruieren wir eine anspruchsvolle Testumgebung, die 1889 Stichproben über sieben Anweisungstypen hinweg umfasst. In diesen Stichproben nehmen die Zielobjekte nur 1 % bis 10 % der Bildfläche ein und decken komplexe Szenarien wie partielle Verdeckung und Mehrfachobjekt-Bearbeitung ab. Um eine robuste Auswertung auf diesem Benchmark zu gewährleisten, schlagen wir ein Evaluationsprotokoll mit verfeinerten Bewertungsrastern vor, um Subjektivität und Unklarheiten bei zwei Kriterien zu minimieren: Anweisungsbefolgung und visuelle Konsistenz. Dieses Protokoll führt zudem einen dualen Evaluationsrahmen (werkzeuggestützter und oracle-gestützter Modus) ein, der die Diskrepanz zwischen LMM-als-Bewerter und menschlichen Urteilen auf DLEBench adressiert. Empirische Ergebnisse von 10 IIEMs zeigen erhebliche Leistungsunterschiede bei der Bearbeitung kleinformatiger Objekte auf und unterstreichen die Notwendigkeit spezialisierter Benchmarks, um diese Fähigkeit voranzutreiben.

English

Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.

DLEBench: Bewertung der Fähigkeit zur Bearbeitung kleinskaliger Objekte bei instruktionsbasierten Bildbearbeitungsmodellen

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Zusammenfassung

Support