SpotEdit: Avaliação de Métodos de Edição de Imagens Guiados Visualmente
SpotEdit: Evaluating Visually-Guided Image Editing Methods
August 25, 2025
Autores: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI
Resumo
A edição de imagens guiada visualmente, onde as edições são condicionadas tanto por pistas visuais quanto por prompts textuais, emergiu como um paradigma poderoso para a geração de conteúdo controlada e de alta granularidade. Embora os modelos generativos recentes tenham demonstrado capacidades notáveis, as avaliações existentes permanecem simples e insuficientemente representativas dos desafios de edição do mundo real. Apresentamos o SpotEdit, um benchmark abrangente projetado para avaliar sistematicamente métodos de edição de imagens guiada visualmente em diversos modelos generativos, incluindo difusão, autoregressivos e híbridos, revelando disparidades substanciais de desempenho. Para abordar um desafio crítico e ainda pouco explorado, nosso benchmark inclui um componente dedicado à alucinação, destacando como modelos líderes, como o GPT-4o, frequentemente alucinam a existência de uma pista visual e realizam erroneamente a tarefa de edição. Nosso código e benchmark são disponibilizados publicamente em https://github.com/SaraGhazanfari/SpotEdit.
English
Visually-guided image editing, where edits are conditioned on both visual
cues and textual prompts, has emerged as a powerful paradigm for fine-grained,
controllable content generation. Although recent generative models have shown
remarkable capabilities, existing evaluations remain simple and insufficiently
representative of real-world editing challenges. We present SpotEdit, a
comprehensive benchmark designed to systematically assess visually-guided image
editing methods across diverse diffusion, autoregressive, and hybrid generative
models, uncovering substantial performance disparities. To address a critical
yet underexplored challenge, our benchmark includes a dedicated component on
hallucination, highlighting how leading models, such as GPT-4o, often
hallucinate the existence of a visual cue and erroneously perform the editing
task. Our code and benchmark are publicly released at
https://github.com/SaraGhazanfari/SpotEdit.