ChatPaper.aiChatPaper

SpotEdit: Evaluatie van Visueel-Gestuurde Methoden voor Afbeeldingsbewerking

SpotEdit: Evaluating Visually-Guided Image Editing Methods

August 25, 2025
Auteurs: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI

Samenvatting

Visueel-gestuurde beeldbewerking, waarbij bewerkingen worden bepaald door zowel visuele aanwijzingen als tekstuele prompts, is naar voren gekomen als een krachtig paradigma voor fijnmazige, controleerbare inhoudsgeneratie. Hoewel recente generatieve modellen opmerkelijke capaciteiten hebben getoond, blijven bestaande evaluaties eenvoudig en onvoldoende representatief voor real-world bewerkingsuitdagingen. Wij presenteren SpotEdit, een uitgebreide benchmark die is ontworpen om visueel-gestuurde beeldbewerkingsmethoden systematisch te beoordelen over diverse diffusie-, autoregressieve en hybride generatieve modellen, waarbij aanzienlijke prestatieverschillen aan het licht komen. Om een kritieke maar onderbelichte uitdaging aan te pakken, bevat onze benchmark een specifieke component over hallucinatie, die benadrukt hoe toonaangevende modellen, zoals GPT-4o, vaak het bestaan van een visuele aanwijzing hallucineren en de bewerkingstaak foutief uitvoeren. Onze code en benchmark zijn openbaar vrijgegeven op https://github.com/SaraGhazanfari/SpotEdit.
English
Visually-guided image editing, where edits are conditioned on both visual cues and textual prompts, has emerged as a powerful paradigm for fine-grained, controllable content generation. Although recent generative models have shown remarkable capabilities, existing evaluations remain simple and insufficiently representative of real-world editing challenges. We present SpotEdit, a comprehensive benchmark designed to systematically assess visually-guided image editing methods across diverse diffusion, autoregressive, and hybrid generative models, uncovering substantial performance disparities. To address a critical yet underexplored challenge, our benchmark includes a dedicated component on hallucination, highlighting how leading models, such as GPT-4o, often hallucinate the existence of a visual cue and erroneously perform the editing task. Our code and benchmark are publicly released at https://github.com/SaraGhazanfari/SpotEdit.
PDF33August 26, 2025