SpotEdit: Evaluación de Métodos de Edición de Imágenes Guiados Visualmente
SpotEdit: Evaluating Visually-Guided Image Editing Methods
August 25, 2025
Autores: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI
Resumen
La edición de imágenes guiada visualmente, donde las ediciones se condicionan tanto en señales visuales como en indicaciones textuales, ha surgido como un paradigma poderoso para la generación de contenido detallado y controlable. Aunque los modelos generativos recientes han demostrado capacidades notables, las evaluaciones existentes siguen siendo simples y no representan adecuadamente los desafíos de edición del mundo real. Presentamos SpotEdit, un punto de referencia integral diseñado para evaluar sistemáticamente los métodos de edición de imágenes guiada visualmente en diversos modelos generativos de difusión, autorregresivos e híbridos, revelando disparidades significativas en el rendimiento. Para abordar un desafío crítico pero poco explorado, nuestro punto de referencia incluye un componente dedicado a la alucinación, destacando cómo los modelos líderes, como GPT-4o, a menudo alucinan la existencia de una señal visual y realizan erróneamente la tarea de edición. Nuestro código y punto de referencia se han publicado públicamente en https://github.com/SaraGhazanfari/SpotEdit.
English
Visually-guided image editing, where edits are conditioned on both visual
cues and textual prompts, has emerged as a powerful paradigm for fine-grained,
controllable content generation. Although recent generative models have shown
remarkable capabilities, existing evaluations remain simple and insufficiently
representative of real-world editing challenges. We present SpotEdit, a
comprehensive benchmark designed to systematically assess visually-guided image
editing methods across diverse diffusion, autoregressive, and hybrid generative
models, uncovering substantial performance disparities. To address a critical
yet underexplored challenge, our benchmark includes a dedicated component on
hallucination, highlighting how leading models, such as GPT-4o, often
hallucinate the existence of a visual cue and erroneously perform the editing
task. Our code and benchmark are publicly released at
https://github.com/SaraGhazanfari/SpotEdit.