ChatPaper.aiChatPaper

Dans quelle mesure les modèles suivent-ils les instructions visuelles ? VIBE : Un benchmark systématique pour l'édition d'images pilotée par instructions visuelles

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

February 2, 2026
papers.authors: Huanyu Zhang, Xuehai Bai, Chengzu Li, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI

papers.abstract

Les modèles génératifs récents ont accompli des progrès remarquables en matière d'édition d'images. Cependant, les systèmes et benchmarks existants restent largement guidés par le texte. En revanche, la communication humaine est intrinsèquement multimodale, où des instructions visuelles telles que des esquisses transmettent efficacement une intention spatiale et structurelle. Pour combler cette lacune, nous présentons VIBE, le Benchmark d'Instruction Visuelle pour l'Édition d'Images, avec une hiérarchie d'interaction à trois niveaux qui capture l'ancrage déictique, la manipulation morphologique et le raisonnement causal. À travers ces niveaux, nous constituons des cas de test de haute qualité et diversifiés qui reflètent une complexité progressivement croissante dans le suivi d'instructions visuelles. Nous proposons en outre un cadre d'évaluation robuste de type LMM-comme-juge avec des métriques spécifiques aux tâches pour permettre une évaluation évolutive et fine. Grâce à une évaluation complète de 17 modèles d'édition d'images représentatifs, open-source et propriétaires, nous constatons que les modèles propriétaires présentent des capacités précoces de suivi d'instructions visuelles et surpassent systématiquement les modèles open-source. Cependant, les performances se dégradent notablement avec l'augmentation de la difficulté des tâches, même pour les systèmes les plus performants, ce qui met en lumière des pistes prometteuses pour la recherche future.
English
Recent generative models have achieved remarkable progress in image editing. However, existing systems and benchmarks remain largely text-guided. In contrast, human communication is inherently multimodal, where visual instructions such as sketches efficiently convey spatial and structural intent. To address this gap, we introduce VIBE, the Visual Instruction Benchmark for Image Editing with a three-level interaction hierarchy that captures deictic grounding, morphological manipulation, and causal reasoning. Across these levels, we curate high-quality and diverse test cases that reflect progressively increasing complexity in visual instruction following. We further propose a robust LMM-as-a-judge evaluation framework with task-specific metrics to enable scalable and fine-grained assessment. Through a comprehensive evaluation of 17 representative open-source and proprietary image editing models, we find that proprietary models exhibit early-stage visual instruction-following capabilities and consistently outperform open-source models. However, performance degrades markedly with increasing task difficulty even for the strongest systems, highlighting promising directions for future research.
PDF162February 7, 2026