ChatPaper.aiChatPaper

SpotEdit: Оценка методов визуально-направленного редактирования изображений

SpotEdit: Evaluating Visually-Guided Image Editing Methods

August 25, 2025
Авторы: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI

Аннотация

Визуально-управляемое редактирование изображений, где изменения обусловлены как визуальными подсказками, так и текстовыми запросами, стало мощной парадигмой для детализированного и контролируемого создания контента. Хотя современные генеративные модели демонстрируют впечатляющие возможности, существующие методы оценки остаются упрощенными и недостаточно репрезентативными для реальных задач редактирования. Мы представляем SpotEdit — всеобъемлющий бенчмарк, разработанный для систематической оценки методов визуально-управляемого редактирования изображений на основе различных диффузионных, авторегрессивных и гибридных генеративных моделей, выявляя значительные различия в их производительности. Для решения важной, но недостаточно изученной проблемы наш бенчмарк включает специальный компонент, посвященный галлюцинациям, демонстрируя, как ведущие модели, такие как GPT-4o, часто "галлюцинируют" наличие визуальной подсказки и ошибочно выполняют задачу редактирования. Наш код и бенчмарк публично доступны по адресу https://github.com/SaraGhazanfari/SpotEdit.
English
Visually-guided image editing, where edits are conditioned on both visual cues and textual prompts, has emerged as a powerful paradigm for fine-grained, controllable content generation. Although recent generative models have shown remarkable capabilities, existing evaluations remain simple and insufficiently representative of real-world editing challenges. We present SpotEdit, a comprehensive benchmark designed to systematically assess visually-guided image editing methods across diverse diffusion, autoregressive, and hybrid generative models, uncovering substantial performance disparities. To address a critical yet underexplored challenge, our benchmark includes a dedicated component on hallucination, highlighting how leading models, such as GPT-4o, often hallucinate the existence of a visual cue and erroneously perform the editing task. Our code and benchmark are publicly released at https://github.com/SaraGhazanfari/SpotEdit.
PDF12August 26, 2025