Redactiekeuze: Evaluatie van abstracte intentie bij beeldbewerking door middel van atomaire entiteitsanalyse

Samenvatting

Mensen communiceren van nature via abstracte concepten zoals 'stemming'. Huidige benchmarks voor beeldbewerking richten zich echter voornamelijk op expliciete, letterlijke commando's, waardoor abstracte instructies grotendeels onderbelicht blijven. In dit werk formaliseren we eerst de definitie en taxonomie van abstracte beeldbewerking. Om het opvolgen van instructies in dit uitdagende domein te meten, introduceren we Entity-Rubrics, een raamwerk dat abstracte bewerkingen opsplitst in individuele beoordelingen op entiteitsniveau en een sterke correlatie met menselijke beoordeling bereikt. Naast dit raamwerk leveren we AbstractEdit, de eerste benchmark die zich toelegt op abstracte beeldbewerking in diverse realistische scènes. Evaluatie van 11 toonaangevende modellen op deze dataset onthult een fundamentele uitdaging: standaardarchitecturen hebben moeite om intentie en conservering in evenwicht te brengen, en vervallen vaak in onderbewerking of overbewerking. Onze analyse toont aan dat het realiseren van betekenisvolle verbeteringen sterk afhankelijk is van de integratie van geavanceerde LLM-tekstencoders en iteratief denken. Vooruitkijkend kan ons op entiteiten gebaseerde paradigma generaliseren buiten beoordeling om te dienen als een beloningsmodel, modellen in staat stellen abstracte communicatie correct te interpreteren, of specifieke fouten te markeren in kritieklussen tijdens het testen. Uiteindelijk hopen we dat dit werk dient als een opstap naar naadloze multimodale interactie, waarmee de kloof wordt overbrugd tussen rigide machine-uitvoering en de natuurlijke, open manier waarop mensen communiceren.

English

Humans naturally communicate through abstract concepts like "mood". However, current image editing benchmarks focus primarily on explicit, literal commands, leaving abstract instructions largely underexplored. In this work, we first formalize the definition and taxonomy of abstract image editing. To measure instruction-following in this challenging domain, we introduce Entity-Rubrics, a framework that breaks down abstract edits into individual, entity-level assessments and achieves strong correlation with human judgment. Alongside this framework, we contribute AbstractEdit, the first benchmark dedicated to abstract image editing across diverse real-world scenes. Evaluating 11 leading models on this dataset reveals a fundamental challenge: standard architectures struggle to balance intent and preservation, commonly defaulting to under-editing or over-editing. Our analysis demonstrates that driving meaningful improvements relies heavily on integrating advanced LLM text encoders and iterative thinking. Looking forward, our entity-based paradigm can generalize beyond assessment to serve as a reward model, enable models to correctly interpret abstract communication, or highlight specific failures in test-time critique loops. Ultimately, we hope this work serves as a stepping stone toward seamless multimodal interaction, closing the gap between rigid machine execution and the natural, open-ended way humans communicate.