ChatPaper.aiChatPaper

SpotEdit: Bewertung visuell gesteuerter Bildbearbeitungsmethoden

SpotEdit: Evaluating Visually-Guided Image Editing Methods

August 25, 2025
papers.authors: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI

papers.abstract

Visuell gesteuertes Bildbearbeitung, bei der Bearbeitungen sowohl auf visuellen Hinweisen als auch auf textuellen Aufforderungen basieren, hat sich als ein leistungsstarkes Paradigma für fein abgestimmte, kontrollierbare Inhaltserstellung etabliert. Obwohl aktuelle generative Modelle bemerkenswerte Fähigkeiten gezeigt haben, bleiben bestehende Bewertungen einfach und unzureichend repräsentativ für die Herausforderungen der realen Bearbeitungspraxis. Wir präsentieren SpotEdit, einen umfassenden Benchmark, der darauf abzielt, visuell gesteuerte Bildbearbeitungsmethoden systematisch über verschiedene Diffusions-, autoregressive und hybride generative Modelle hinweg zu bewerten und erhebliche Leistungsunterschiede aufzudecken. Um eine kritische, jedoch bisher wenig erforschte Herausforderung zu adressieren, beinhaltet unser Benchmark eine spezielle Komponente zur Halluzination, die aufzeigt, wie führende Modelle wie GPT-4o oft die Existenz eines visuellen Hinweises halluzinieren und die Bearbeitungsaufgabe fälschlicherweise durchführen. Unser Code und Benchmark sind öffentlich unter https://github.com/SaraGhazanfari/SpotEdit verfügbar.
English
Visually-guided image editing, where edits are conditioned on both visual cues and textual prompts, has emerged as a powerful paradigm for fine-grained, controllable content generation. Although recent generative models have shown remarkable capabilities, existing evaluations remain simple and insufficiently representative of real-world editing challenges. We present SpotEdit, a comprehensive benchmark designed to systematically assess visually-guided image editing methods across diverse diffusion, autoregressive, and hybrid generative models, uncovering substantial performance disparities. To address a critical yet underexplored challenge, our benchmark includes a dedicated component on hallucination, highlighting how leading models, such as GPT-4o, often hallucinate the existence of a visual cue and erroneously perform the editing task. Our code and benchmark are publicly released at https://github.com/SaraGhazanfari/SpotEdit.
PDF12August 26, 2025