Escolha do Editor: Avaliando a Intenção Abstrata na Edição de Imagens por meio da Análise de Entidades Atômicas

Resumo

Os seres humanos comunicam-se naturalmente por meio de conceitos abstratos como "humor". No entanto, os benchmarks atuais de edição de imagens concentram-se principalmente em comandos explícitos e literais, deixando instruções abstratas amplamente inexploradas. Neste trabalho, formalizamos primeiro a definição e a taxonomia da edição abstrata de imagens. Para medir o seguimento de instruções nesse domínio desafiador, introduzimos o Entity-Rubrics, uma estrutura que decompõe edições abstratas em avaliações individuais no nível da entidade e obtém forte correlação com o julgamento humano. Juntamente com essa estrutura, contribuímos com o AbstractEdit, o primeiro benchmark dedicado à edição abstrata de imagens em cenas diversas do mundo real. A avaliação de 11 modelos líderes nesse conjunto de dados revela um desafio fundamental: arquiteturas padrão têm dificuldade em equilibrar intenção e preservação, muitas vezes tendendo a subedição ou superedição. Nossa análise demonstra que impulsionar melhorias significativas depende fortemente da integração de codificadores de texto avançados de LLM e do pensamento iterativo. Olhando adiante, nosso paradigma baseado em entidades pode se generalizar além da avaliação para servir como modelo de recompensa, permitir que modelos interpretem corretamente a comunicação abstrata ou destacar falhas específicas em loops de crítica em tempo de teste. Por fim, esperamos que este trabalho sirva como um trampolim para uma interação multimodal contínua, fechando a lacuna entre a execução rígida das máquinas e a forma natural e aberta como os humanos se comunicam.

English

Humans naturally communicate through abstract concepts like "mood". However, current image editing benchmarks focus primarily on explicit, literal commands, leaving abstract instructions largely underexplored. In this work, we first formalize the definition and taxonomy of abstract image editing. To measure instruction-following in this challenging domain, we introduce Entity-Rubrics, a framework that breaks down abstract edits into individual, entity-level assessments and achieves strong correlation with human judgment. Alongside this framework, we contribute AbstractEdit, the first benchmark dedicated to abstract image editing across diverse real-world scenes. Evaluating 11 leading models on this dataset reveals a fundamental challenge: standard architectures struggle to balance intent and preservation, commonly defaulting to under-editing or over-editing. Our analysis demonstrates that driving meaningful improvements relies heavily on integrating advanced LLM text encoders and iterative thinking. Looking forward, our entity-based paradigm can generalize beyond assessment to serve as a reward model, enable models to correctly interpret abstract communication, or highlight specific failures in test-time critique loops. Ultimately, we hope this work serves as a stepping stone toward seamless multimodal interaction, closing the gap between rigid machine execution and the natural, open-ended way humans communicate.