Ist diese Bearbeitung korrekt? Ein mehrdimensionaler Benchmark für reasoning-bewusste Bildbearbeitung

Zusammenfassung

Diffusionsbasierte Bildbearbeitung hat unter natürlichen Sprachinstruktionen eine hohe visuelle Wiedergabetreue erreicht, dennoch operieren die meisten bestehenden Systeme weiterhin auf der Ebene der oberflächlichen Instruktionsbefolgung, ohne die in realen Nutzeranfragen eingebetteten impliziten kontextuellen Beschränkungen zu berücksichtigen. Dies führt oft zu visuell plausiblen, aber logisch inkonsistenten Bearbeitungen. In dieser Arbeit stellen wir RE-Edit vor, einen Benchmark für reasoning-bewusste Bildbearbeitung, der Bildbearbeitungssysteme über fünf komplementäre Reasoning-Dimensionen hinweg bewertet: physikalisch, umweltbezogen, kulturell, kausal und referenziell. RE-Edit umfasst 1.000 sorgfältig kuratierte Proben, die jeweils so gestaltet sind, dass visuelle Plausibilität allein nicht ausreicht und eine korrekte Bearbeitung die Erfüllung impliziter logischer Beschränkungen erfordert. Zur Unterstützung einer detaillierten Analyse etablieren wir dimensionsbezogene Bewertungskriterien und führen eine umfassende Studie mit zehn Open-Source- und zwei kommerziellen Bildbearbeitungsmodellen durch. Unsere Ergebnisse zeigen, dass selbst fortschrittliche Systeme bei implizitem mehrdimensionalem Reasoning häufig Schwierigkeiten haben, obwohl sie qualitativ hochwertige visuelle Ergebnisse liefern. Weiterhin präsentieren wir eine leichte, reasoning-gestützte Nachbearbeitungs-Baseline als erste Erkundung, die veranschaulicht, wie explizites Reasoning modellagnostisch helfen kann, solche Fehlschläge zu mildern.

English

Diffusion-based image editing has achieved strong visual fidelity under natural language instructions, yet most existing systems still operate at the level of surface instruction following, without reasoning about the implicit contextual constraints embedded in real user requests. This often leads to visually plausible but logically inconsistent edits. In this work, we introduce RE-Edit, a benchmark for REasoning-aware image Editing that evaluates image editing systems across five complementary reasoning dimensions: physical, environmental, cultural, causal, and referential. RE-Edit comprises 1,000 carefully curated samples, each designed such that visual plausibility alone is insufficient and correct editing requires satisfying implicit logical constraints. To support fine-grained analysis, we establish dimension-aligned evaluation criteria and conduct a comprehensive study of ten open-source and two commercial image editing models. Our results show that even advanced systems frequently struggle with implicit multi-dimensional reasoning despite producing high-quality visuals. We further present a lightweight reasoning-guided post-edit baseline as an initial exploration, illustrating how inserting explicit reasoning can help mitigate such failures in a model-agnostic manner.