Esta Edição Está Correta? Um Benchmark Multidimensional para Edição de Imagens Orientada por Raciocínio

Resumo

A edição de imagens baseada em difusão alcançou forte fidelidade visual sob instruções em linguagem natural, mas a maioria dos sistemas existentes ainda opera no nível de seguimento superficial de instruções, sem raciocinar sobre as restrições contextuais implícitas embutidas em solicitações reais de usuários. Isso frequentemente leva a edições visualmente plausíveis, mas logicamente inconsistentes. Neste trabalho, apresentamos o RE-Edit, um benchmark para Edição de Imagens Consciente de Raciocínio que avalia sistemas de edição de imagens em cinco dimensões complementares de raciocínio: física, ambiental, cultural, causal e referencial. O RE-Edit compreende 1.000 amostras cuidadosamente selecionadas, cada uma projetada de modo que a plausibilidade visual por si só seja insuficiente e a edição correta exija a satisfação de restrições lógicas implícitas. Para apoiar uma análise detalhada, estabelecemos critérios de avaliação alinhados às dimensões e conduzimos um estudo abrangente de dez modelos de edição de imagens de código aberto e dois comerciais. Nossos resultados mostram que mesmo sistemas avançados frequentemente têm dificuldades com raciocínio implícito multidimensional, apesar de produzirem visuais de alta qualidade. Apresentamos ainda uma linha de base leve de pós-edição guiada por raciocínio como uma exploração inicial, ilustrando como a inserção de raciocínio explícito pode ajudar a mitigar tais falhas de forma independente do modelo.

English

Diffusion-based image editing has achieved strong visual fidelity under natural language instructions, yet most existing systems still operate at the level of surface instruction following, without reasoning about the implicit contextual constraints embedded in real user requests. This often leads to visually plausible but logically inconsistent edits. In this work, we introduce RE-Edit, a benchmark for REasoning-aware image Editing that evaluates image editing systems across five complementary reasoning dimensions: physical, environmental, cultural, causal, and referential. RE-Edit comprises 1,000 carefully curated samples, each designed such that visual plausibility alone is insufficient and correct editing requires satisfying implicit logical constraints. To support fine-grained analysis, we establish dimension-aligned evaluation criteria and conduct a comprehensive study of ten open-source and two commercial image editing models. Our results show that even advanced systems frequently struggle with implicit multi-dimensional reasoning despite producing high-quality visuals. We further present a lightweight reasoning-guided post-edit baseline as an initial exploration, illustrating how inserting explicit reasoning can help mitigate such failures in a model-agnostic manner.