Выбор редакции: Оценка абстрактного намерения при редактировании изображений посредством анализа атомарных сущностей

Аннотация

Люди естественным образом общаются с помощью абстрактных понятий, таких как «настроение». Однако современные бенчмарки по редактированию изображений в основном ориентированы на явные, буквальные команды, оставляя абстрактные инструкции в значительной степени неисследованными. В данной работе мы впервые формализуем определение и таксономию абстрактного редактирования изображений. Для оценки следования инструкциям в этой сложной области мы предлагаем Entity-Rubrics — систему, которая разбивает абстрактные правки на отдельные оценки на уровне объектов и демонстрирует высокую корреляцию с человеческими суждениями. Наряду с этой системой мы представляем AbstractEdit — первый бенчмарк, посвящённый абстрактному редактированию изображений в разнообразных реальных сценах. Оценка 11 ведущих моделей на этом наборе данных выявила фундаментальную проблему: стандартные архитектуры испытывают трудности с балансировкой между намерением и сохранением, часто впадая в недоредактирование или перередактирование. Наш анализ показывает, что для достижения значимых улучшений необходимо активно использовать расширенные текстовые кодировщики LLM и итеративное мышление. Заглядывая вперёд, наша парадигма, основанная на объектах, может быть обобщена за пределы оценки, выступая в качестве модели вознаграждения, позволяя моделям правильно интерпретировать абстрактное общение или выделять конкретные сбои в циклах критики во время тестирования. В конечном счёте, мы надеемся, что эта работа послужит ступенькой к плавному мультимодальному взаимодействию, сокращая разрыв между жёстким выполнением команд машинами и естественным, открытым способом человеческого общения.

English

Humans naturally communicate through abstract concepts like "mood". However, current image editing benchmarks focus primarily on explicit, literal commands, leaving abstract instructions largely underexplored. In this work, we first formalize the definition and taxonomy of abstract image editing. To measure instruction-following in this challenging domain, we introduce Entity-Rubrics, a framework that breaks down abstract edits into individual, entity-level assessments and achieves strong correlation with human judgment. Alongside this framework, we contribute AbstractEdit, the first benchmark dedicated to abstract image editing across diverse real-world scenes. Evaluating 11 leading models on this dataset reveals a fundamental challenge: standard architectures struggle to balance intent and preservation, commonly defaulting to under-editing or over-editing. Our analysis demonstrates that driving meaningful improvements relies heavily on integrating advanced LLM text encoders and iterative thinking. Looking forward, our entity-based paradigm can generalize beyond assessment to serve as a reward model, enable models to correctly interpret abstract communication, or highlight specific failures in test-time critique loops. Ultimately, we hope this work serves as a stepping stone toward seamless multimodal interaction, closing the gap between rigid machine execution and the natural, open-ended way humans communicate.