SpotEdit: Evaluatie van Visueel-Gestuurde Methoden voor Afbeeldingsbewerking
SpotEdit: Evaluating Visually-Guided Image Editing Methods
August 25, 2025
Auteurs: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI
Samenvatting
Visueel-gestuurde beeldbewerking, waarbij bewerkingen worden bepaald door zowel visuele aanwijzingen als tekstuele prompts, is naar voren gekomen als een krachtig paradigma voor fijnmazige, controleerbare inhoudsgeneratie. Hoewel recente generatieve modellen opmerkelijke capaciteiten hebben getoond, blijven bestaande evaluaties eenvoudig en onvoldoende representatief voor real-world bewerkingsuitdagingen. Wij presenteren SpotEdit, een uitgebreide benchmark die is ontworpen om visueel-gestuurde beeldbewerkingsmethoden systematisch te beoordelen over diverse diffusie-, autoregressieve en hybride generatieve modellen, waarbij aanzienlijke prestatieverschillen aan het licht komen. Om een kritieke maar onderbelichte uitdaging aan te pakken, bevat onze benchmark een specifieke component over hallucinatie, die benadrukt hoe toonaangevende modellen, zoals GPT-4o, vaak het bestaan van een visuele aanwijzing hallucineren en de bewerkingstaak foutief uitvoeren. Onze code en benchmark zijn openbaar vrijgegeven op https://github.com/SaraGhazanfari/SpotEdit.
English
Visually-guided image editing, where edits are conditioned on both visual
cues and textual prompts, has emerged as a powerful paradigm for fine-grained,
controllable content generation. Although recent generative models have shown
remarkable capabilities, existing evaluations remain simple and insufficiently
representative of real-world editing challenges. We present SpotEdit, a
comprehensive benchmark designed to systematically assess visually-guided image
editing methods across diverse diffusion, autoregressive, and hybrid generative
models, uncovering substantial performance disparities. To address a critical
yet underexplored challenge, our benchmark includes a dedicated component on
hallucination, highlighting how leading models, such as GPT-4o, often
hallucinate the existence of a visual cue and erroneously perform the editing
task. Our code and benchmark are publicly released at
https://github.com/SaraGhazanfari/SpotEdit.