Sélection de l'éditeur : Évaluation de l'intention abstraite dans l'édition d'images par l'analyse d'entités atomiques

Résumé

Les humains communiquent naturellement par des concepts abstraits comme l'« humeur ». Cependant, les repères actuels en édition d'images se concentrent principalement sur des commandes explicites et littérales, laissant les instructions abstraites largement sous-explorées. Dans ce travail, nous formalisons d'abord la définition et la taxonomie de l'édition d'images abstraite. Pour mesurer le suivi d'instructions dans ce domaine difficile, nous introduisons Entity-Rubrics, un cadre qui décompose les modifications abstraites en évaluations individuelles au niveau des entités et obtient une forte corrélation avec le jugement humain. Parallèlement à ce cadre, nous contribuons à AbstractEdit, le premier repère dédié à l'édition d'images abstraite dans des scènes réelles diverses. L'évaluation de 11 modèles leaders sur cet ensemble de données révèle un défi fondamental : les architectures standard peinent à équilibrer l'intention et la préservation, adoptant par défaut soit la sous-édition, soit la sur-édition. Notre analyse démontre que des améliorations significatives reposent largement sur l'intégration d'encodeurs de texte LLM avancés et d'une réflexion itérative. En perspective, notre paradigme basé sur les entités peut se généraliser au-delà de l'évaluation pour servir de modèle de récompense, permettre aux modèles d'interpréter correctement la communication abstraite, ou mettre en évidence des échecs spécifiques dans les boucles de critique pendant l'inférence. Enfin, nous espérons que ce travail servira de tremplin vers une interaction multimodale fluide, comblant le fossé entre l'exécution rigide des machines et la manière naturelle et ouverte dont les humains communiquent.

English

Humans naturally communicate through abstract concepts like "mood". However, current image editing benchmarks focus primarily on explicit, literal commands, leaving abstract instructions largely underexplored. In this work, we first formalize the definition and taxonomy of abstract image editing. To measure instruction-following in this challenging domain, we introduce Entity-Rubrics, a framework that breaks down abstract edits into individual, entity-level assessments and achieves strong correlation with human judgment. Alongside this framework, we contribute AbstractEdit, the first benchmark dedicated to abstract image editing across diverse real-world scenes. Evaluating 11 leading models on this dataset reveals a fundamental challenge: standard architectures struggle to balance intent and preservation, commonly defaulting to under-editing or over-editing. Our analysis demonstrates that driving meaningful improvements relies heavily on integrating advanced LLM text encoders and iterative thinking. Looking forward, our entity-based paradigm can generalize beyond assessment to serve as a reward model, enable models to correctly interpret abstract communication, or highlight specific failures in test-time critique loops. Ultimately, we hope this work serves as a stepping stone toward seamless multimodal interaction, closing the gap between rigid machine execution and the natural, open-ended way humans communicate.