ChatPaper.aiChatPaper

SpotEdit : Évaluation des méthodes d'édition d'images guidées visuellement

SpotEdit: Evaluating Visually-Guided Image Editing Methods

August 25, 2025
papers.authors: Sara Ghazanfari, Wei-An Lin, Haitong Tian, Ersin Yumer
cs.AI

papers.abstract

L'édition d'images guidée visuellement, où les modifications sont conditionnées à la fois par des indices visuels et des invites textuelles, s'est imposée comme un paradigme puissant pour la génération de contenu fine et contrôlée. Bien que les modèles génératifs récents aient démontré des capacités remarquables, les évaluations existantes restent simples et insuffisamment représentatives des défis réels de l'édition. Nous présentons SpotEdit, un benchmark complet conçu pour évaluer systématiquement les méthodes d'édition d'images guidées visuellement à travers divers modèles génératifs, incluant les modèles de diffusion, autoregressifs et hybrides, révélant ainsi des disparités de performance significatives. Pour aborder un défi critique mais encore peu exploré, notre benchmark inclut un volet dédié à l'hallucination, mettant en lumière comment les modèles leaders, tels que GPT-4o, hallucinent souvent l'existence d'un indice visuel et exécutent de manière erronée la tâche d'édition. Notre code et benchmark sont disponibles publiquement à l'adresse suivante : https://github.com/SaraGhazanfari/SpotEdit.
English
Visually-guided image editing, where edits are conditioned on both visual cues and textual prompts, has emerged as a powerful paradigm for fine-grained, controllable content generation. Although recent generative models have shown remarkable capabilities, existing evaluations remain simple and insufficiently representative of real-world editing challenges. We present SpotEdit, a comprehensive benchmark designed to systematically assess visually-guided image editing methods across diverse diffusion, autoregressive, and hybrid generative models, uncovering substantial performance disparities. To address a critical yet underexplored challenge, our benchmark includes a dedicated component on hallucination, highlighting how leading models, such as GPT-4o, often hallucinate the existence of a visual cue and erroneously perform the editing task. Our code and benchmark are publicly released at https://github.com/SaraGhazanfari/SpotEdit.
PDF12August 26, 2025