Is deze bewerking correct? Een multidimensionale benchmark voor redeneerbewuste beeldbewerking

Samenvatting

Diffusiegebaseerde beeldbewerking heeft een sterke visuele getrouwheid bereikt onder natuurlijke taal instructies, maar de meeste bestaande systemen opereren nog steeds op het niveau van oppervlakkige instructie-opvolging, zonder te redeneren over de impliciete contextuele beperkingen die in echte gebruikersverzoeken zijn ingebed. Dit leidt vaak tot visueel aannemelijke maar logisch inconsistente bewerkingen. In dit werk introduceren we RE-Edit, een benchmark voor redeneringsbewuste beeldbewerking die beeldbewerkingssystemen evalueert over vijf complementaire redeneringsdimensies: fysiek, omgevingsgebonden, cultureel, causaal en referentieel. RE-Edit omvat 1.000 zorgvuldig samengestelde samples, elk zodanig ontworpen dat visuele aannemelijkheid alleen niet volstaat en correcte bewerking het voldoen aan impliciete logische beperkingen vereist. Om fijnmazige analyse te ondersteunen, stellen we dimensie-afgestemde evaluatiecriteria op en voeren we een uitgebreide studie uit van tien open-source en twee commerciële beeldbewerkingsmodellen. Onze resultaten tonen aan dat zelfs geavanceerde systemen vaak worstelen met impliciete multidimensionale redenering, ondanks het produceren van hoogwaardige beelden. Verder presenteren we een lichtgewicht, redeneringsgestuurde nabewerkingsbaseline als een eerste verkenning, die illustreert hoe het inbrengen van expliciete redenering dergelijke fouten op een model-agnostische manier kan helpen verminderen.

English

Diffusion-based image editing has achieved strong visual fidelity under natural language instructions, yet most existing systems still operate at the level of surface instruction following, without reasoning about the implicit contextual constraints embedded in real user requests. This often leads to visually plausible but logically inconsistent edits. In this work, we introduce RE-Edit, a benchmark for REasoning-aware image Editing that evaluates image editing systems across five complementary reasoning dimensions: physical, environmental, cultural, causal, and referential. RE-Edit comprises 1,000 carefully curated samples, each designed such that visual plausibility alone is insufficient and correct editing requires satisfying implicit logical constraints. To support fine-grained analysis, we establish dimension-aligned evaluation criteria and conduct a comprehensive study of ten open-source and two commercial image editing models. Our results show that even advanced systems frequently struggle with implicit multi-dimensional reasoning despite producing high-quality visuals. We further present a lightweight reasoning-guided post-edit baseline as an initial exploration, illustrating how inserting explicit reasoning can help mitigate such failures in a model-agnostic manner.