Elección del Editor: Evaluación de la intención abstracta en la edición de imágenes mediante el análisis de entidades atómicas

Resumen

Los seres humanos se comunican de manera natural mediante conceptos abstractos como el "estado de ánimo". Sin embargo, los puntos de referencia actuales para la edición de imágenes se centran principalmente en comandos explícitos y literales, dejando en gran medida inexploradas las instrucciones abstractas. En este trabajo, primero formalizamos la definición y taxonomía de la edición abstracta de imágenes. Para medir el seguimiento de instrucciones en este dominio desafiante, presentamos Entity-Rubrics, un marco que descompone las ediciones abstractas en evaluaciones individuales a nivel de entidad y logra una fuerte correlación con el juicio humano. Junto con este marco, contribuimos con AbstractEdit, el primer punto de referencia dedicado a la edición abstracta de imágenes en diversas escenas del mundo real. La evaluación de 11 modelos líderes en este conjunto de datos revela un desafío fundamental: las arquitecturas estándar tienen dificultades para equilibrar la intención y la preservación, y comúnmente caen en la subedición o la sobreedición. Nuestro análisis demuestra que impulsar mejoras significativas depende en gran medida de la integración de codificadores de texto avanzados de LLM y del pensamiento iterativo. De cara al futuro, nuestro paradigma basado en entidades puede generalizarse más allá de la evaluación para servir como modelo de recompensa, permitir que los modelos interpreten correctamente la comunicación abstracta o resaltar fallos específicos en bucles de crítica durante la inferencia. En última instancia, esperamos que este trabajo sirva como un trampolín hacia una interacción multimodal fluida, cerrando la brecha entre la ejecución rígida de las máquinas y la forma natural y abierta en que los humanos se comunican.

English

Humans naturally communicate through abstract concepts like "mood". However, current image editing benchmarks focus primarily on explicit, literal commands, leaving abstract instructions largely underexplored. In this work, we first formalize the definition and taxonomy of abstract image editing. To measure instruction-following in this challenging domain, we introduce Entity-Rubrics, a framework that breaks down abstract edits into individual, entity-level assessments and achieves strong correlation with human judgment. Alongside this framework, we contribute AbstractEdit, the first benchmark dedicated to abstract image editing across diverse real-world scenes. Evaluating 11 leading models on this dataset reveals a fundamental challenge: standard architectures struggle to balance intent and preservation, commonly defaulting to under-editing or over-editing. Our analysis demonstrates that driving meaningful improvements relies heavily on integrating advanced LLM text encoders and iterative thinking. Looking forward, our entity-based paradigm can generalize beyond assessment to serve as a reward model, enable models to correctly interpret abstract communication, or highlight specific failures in test-time critique loops. Ultimately, we hope this work serves as a stepping stone toward seamless multimodal interaction, closing the gap between rigid machine execution and the natural, open-ended way humans communicate.