この編集は正しいか？: 推論を考慮した画像編集のための多次元ベンチマーク

要旨

基于扩散的图像编辑在自然语言指令下已实现强大的视觉保真度，但现有系统大多仍停留在表面指令跟随层面，未能推理真实用户请求中蕴含的隐式语境约束。这往往导致视觉上合理但逻辑上不一致的编辑结果。本文提出RE-Edit基准——一个面向推理感知图像编辑的基准，从五个互补的推理维度（物理、环境、文化、因果和指代）评估图像编辑系统。RE-Edit包含1000个精心筛选的样本，每个样本的设计均使得仅凭视觉合理性无法完成任务，正确编辑必须满足隐式逻辑约束。为支持细粒度分析，我们建立了维度对齐的评估标准，并对十种开源和两种商业图像编辑模型进行了全面研究。结果表明，尽管能生成高质量视觉结果，先进系统在面对隐式多维推理时仍频繁出错。我们进一步提出一种轻量级推理引导的后编辑基线作为初步探索，展示了通过注入显式推理如何以模型无关的方式缓解此类失败。

English

Diffusion-based image editing has achieved strong visual fidelity under natural language instructions, yet most existing systems still operate at the level of surface instruction following, without reasoning about the implicit contextual constraints embedded in real user requests. This often leads to visually plausible but logically inconsistent edits. In this work, we introduce RE-Edit, a benchmark for REasoning-aware image Editing that evaluates image editing systems across five complementary reasoning dimensions: physical, environmental, cultural, causal, and referential. RE-Edit comprises 1,000 carefully curated samples, each designed such that visual plausibility alone is insufficient and correct editing requires satisfying implicit logical constraints. To support fine-grained analysis, we establish dimension-aligned evaluation criteria and conduct a comprehensive study of ten open-source and two commercial image editing models. Our results show that even advanced systems frequently struggle with implicit multi-dimensional reasoning despite producing high-quality visuals. We further present a lightweight reasoning-guided post-edit baseline as an initial exploration, illustrating how inserting explicit reasoning can help mitigate such failures in a model-agnostic manner.