ChatPaper.aiChatPaper

SpotEdit: Avaliação de Métodos de Edição de Imagens Guiados Visualmente

SpotEdit: Evaluating Visually-Guided Image Editing Methods

August 25, 2025
Autores: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI

Resumo

A edição de imagens guiada visualmente, onde as edições são condicionadas tanto por pistas visuais quanto por prompts textuais, emergiu como um paradigma poderoso para a geração de conteúdo controlada e de alta granularidade. Embora os modelos generativos recentes tenham demonstrado capacidades notáveis, as avaliações existentes permanecem simples e insuficientemente representativas dos desafios de edição do mundo real. Apresentamos o SpotEdit, um benchmark abrangente projetado para avaliar sistematicamente métodos de edição de imagens guiada visualmente em diversos modelos generativos, incluindo difusão, autoregressivos e híbridos, revelando disparidades substanciais de desempenho. Para abordar um desafio crítico e ainda pouco explorado, nosso benchmark inclui um componente dedicado à alucinação, destacando como modelos líderes, como o GPT-4o, frequentemente alucinam a existência de uma pista visual e realizam erroneamente a tarefa de edição. Nosso código e benchmark são disponibilizados publicamente em https://github.com/SaraGhazanfari/SpotEdit.
English
Visually-guided image editing, where edits are conditioned on both visual cues and textual prompts, has emerged as a powerful paradigm for fine-grained, controllable content generation. Although recent generative models have shown remarkable capabilities, existing evaluations remain simple and insufficiently representative of real-world editing challenges. We present SpotEdit, a comprehensive benchmark designed to systematically assess visually-guided image editing methods across diverse diffusion, autoregressive, and hybrid generative models, uncovering substantial performance disparities. To address a critical yet underexplored challenge, our benchmark includes a dedicated component on hallucination, highlighting how leading models, such as GPT-4o, often hallucinate the existence of a visual cue and erroneously perform the editing task. Our code and benchmark are publicly released at https://github.com/SaraGhazanfari/SpotEdit.
PDF33August 26, 2025