SpotEdit: Bewertung visuell gesteuerter Bildbearbeitungsmethoden
SpotEdit: Evaluating Visually-Guided Image Editing Methods
August 25, 2025
papers.authors: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI
papers.abstract
Visuell gesteuertes Bildbearbeitung, bei der Bearbeitungen sowohl auf visuellen Hinweisen als auch auf textuellen Aufforderungen basieren, hat sich als ein leistungsstarkes Paradigma für fein abgestimmte, kontrollierbare Inhaltserstellung etabliert. Obwohl aktuelle generative Modelle bemerkenswerte Fähigkeiten gezeigt haben, bleiben bestehende Bewertungen einfach und unzureichend repräsentativ für die Herausforderungen der realen Bearbeitungspraxis. Wir präsentieren SpotEdit, einen umfassenden Benchmark, der darauf abzielt, visuell gesteuerte Bildbearbeitungsmethoden systematisch über verschiedene Diffusions-, autoregressive und hybride generative Modelle hinweg zu bewerten und erhebliche Leistungsunterschiede aufzudecken. Um eine kritische, jedoch bisher wenig erforschte Herausforderung zu adressieren, beinhaltet unser Benchmark eine spezielle Komponente zur Halluzination, die aufzeigt, wie führende Modelle wie GPT-4o oft die Existenz eines visuellen Hinweises halluzinieren und die Bearbeitungsaufgabe fälschlicherweise durchführen. Unser Code und Benchmark sind öffentlich unter https://github.com/SaraGhazanfari/SpotEdit verfügbar.
English
Visually-guided image editing, where edits are conditioned on both visual
cues and textual prompts, has emerged as a powerful paradigm for fine-grained,
controllable content generation. Although recent generative models have shown
remarkable capabilities, existing evaluations remain simple and insufficiently
representative of real-world editing challenges. We present SpotEdit, a
comprehensive benchmark designed to systematically assess visually-guided image
editing methods across diverse diffusion, autoregressive, and hybrid generative
models, uncovering substantial performance disparities. To address a critical
yet underexplored challenge, our benchmark includes a dedicated component on
hallucination, highlighting how leading models, such as GPT-4o, often
hallucinate the existence of a visual cue and erroneously perform the editing
task. Our code and benchmark are publicly released at
https://github.com/SaraGhazanfari/SpotEdit.