Auswahl der Redaktion: Bewertung abstrakter Absichten in der Bildbearbeitung durch Analyse atomarer Entitäten

Zusammenfassung

Menschen kommunizieren auf natürliche Weise durch abstrakte Konzepte wie „Stimmung“. Aktuelle Bildbearbeitungs-Benchmarks konzentrieren sich jedoch hauptsächlich auf explizite, wörtliche Anweisungen, sodass abstrakte Anweisungen weitgehend unerforscht bleiben. In dieser Arbeit formalisieren wir zunächst die Definition und Taxonomie der abstrakten Bildbearbeitung. Um die Befolgung von Anweisungen in diesem anspruchsvollen Bereich zu messen, führen wir Entity-Rubrics ein, ein Framework, das abstrakte Bearbeitungen in individuelle Bewertungen auf Entitätsebene zerlegt und eine starke Korrelation mit menschlichen Urteilen aufweist. Zusammen mit diesem Framework stellen wir AbstractEdit vor, den ersten Benchmark, der der abstrakten Bildbearbeitung in vielfältigen realen Szenen gewidmet ist. Die Evaluierung von 11 führenden Modellen auf diesem Datensatz offenbart eine grundlegende Herausforderung: Standardarchitekturen haben Schwierigkeiten, Absicht und Erhaltung in Einklang zu bringen, und neigen standardmäßig zu Unter- oder Überbearbeitung. Unsere Analyse zeigt, dass bedeutende Verbesserungen stark von der Integration fortschrittlicher LLM-Textkodierer und iterativen Denkens abhängen. Für die Zukunft könnte unser entitätsbasiertes Paradigma über die Bewertung hinausgehen und als Belohnungsmodell dienen, es Modellen ermöglichen, abstrakte Kommunikation korrekt zu interpretieren oder spezifische Fehler in Testzeit-Kritikschleifen hervorzuheben. Letztendlich hoffen wir, dass diese Arbeit als Sprungbrett für eine nahtlose multimodale Interaktion dient und die Lücke zwischen starrer maschineller Ausführung und der natürlichen, offenen Art der menschlichen Kommunikation schließt.

English

Humans naturally communicate through abstract concepts like "mood". However, current image editing benchmarks focus primarily on explicit, literal commands, leaving abstract instructions largely underexplored. In this work, we first formalize the definition and taxonomy of abstract image editing. To measure instruction-following in this challenging domain, we introduce Entity-Rubrics, a framework that breaks down abstract edits into individual, entity-level assessments and achieves strong correlation with human judgment. Alongside this framework, we contribute AbstractEdit, the first benchmark dedicated to abstract image editing across diverse real-world scenes. Evaluating 11 leading models on this dataset reveals a fundamental challenge: standard architectures struggle to balance intent and preservation, commonly defaulting to under-editing or over-editing. Our analysis demonstrates that driving meaningful improvements relies heavily on integrating advanced LLM text encoders and iterative thinking. Looking forward, our entity-based paradigm can generalize beyond assessment to serve as a reward model, enable models to correctly interpret abstract communication, or highlight specific failures in test-time critique loops. Ultimately, we hope this work serves as a stepping stone toward seamless multimodal interaction, closing the gap between rigid machine execution and the natural, open-ended way humans communicate.