SpotEdit: Оценка методов визуально-направленного редактирования изображений
SpotEdit: Evaluating Visually-Guided Image Editing Methods
August 25, 2025
Авторы: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI
Аннотация
Визуально-управляемое редактирование изображений, где изменения обусловлены как визуальными подсказками, так и текстовыми запросами, стало мощной парадигмой для детализированного и контролируемого создания контента. Хотя современные генеративные модели демонстрируют впечатляющие возможности, существующие методы оценки остаются упрощенными и недостаточно репрезентативными для реальных задач редактирования. Мы представляем SpotEdit — всеобъемлющий бенчмарк, разработанный для систематической оценки методов визуально-управляемого редактирования изображений на основе различных диффузионных, авторегрессивных и гибридных генеративных моделей, выявляя значительные различия в их производительности. Для решения важной, но недостаточно изученной проблемы наш бенчмарк включает специальный компонент, посвященный галлюцинациям, демонстрируя, как ведущие модели, такие как GPT-4o, часто "галлюцинируют" наличие визуальной подсказки и ошибочно выполняют задачу редактирования. Наш код и бенчмарк публично доступны по адресу https://github.com/SaraGhazanfari/SpotEdit.
English
Visually-guided image editing, where edits are conditioned on both visual
cues and textual prompts, has emerged as a powerful paradigm for fine-grained,
controllable content generation. Although recent generative models have shown
remarkable capabilities, existing evaluations remain simple and insufficiently
representative of real-world editing challenges. We present SpotEdit, a
comprehensive benchmark designed to systematically assess visually-guided image
editing methods across diverse diffusion, autoregressive, and hybrid generative
models, uncovering substantial performance disparities. To address a critical
yet underexplored challenge, our benchmark includes a dedicated component on
hallucination, highlighting how leading models, such as GPT-4o, often
hallucinate the existence of a visual cue and erroneously perform the editing
task. Our code and benchmark are publicly released at
https://github.com/SaraGhazanfari/SpotEdit.