ChatPaper.aiChatPaper

Quão Bem os Modelos Seguem Instruções Visuais? VIBE: Um Benchmark Sistemático para Edição de Imagens Orientada por Instruções Visuais

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

February 2, 2026
Autores: Huanyu Zhang, Xuehai Bai, Chengzu Li, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI

Resumo

Os modelos generativos recentes alcançaram progressos notáveis na edição de imagens. No entanto, os sistemas e benchmarks existentes permanecem amplamente orientados por texto. Em contraste, a comunicação humana é inerentemente multimodal, onde instruções visuais, como esboços, transmitem eficientemente intenções espaciais e estruturais. Para abordar essa lacuna, apresentamos o VIBE, o *Visual Instruction Benchmark for Image Editing* (Benchmark de Instrução Visual para Edição de Imagens), com uma hierarquia de interação de três níveis que captura a fundamentação dêitica, a manipulação morfológica e o raciocínio causal. Através desses níveis, selecionamos casos de teste diversos e de alta qualidade que refletem uma complexidade progressivamente crescente no seguimento de instruções visuais. Propomos ainda um robusto framework de avaliação *LMM-as-a-judge* (Modelo de Linguagem como Juiz) com métricas específicas para a tarefa, permitindo uma avaliação escalável e de granularidade fina. Por meio de uma avaliação abrangente de 17 modelos representativos de edição de imagens, de código aberto e proprietários, descobrimos que os modelos proprietários exibem capacidades iniciais de seguimento de instruções visuais e superam consistentemente os modelos de código aberto. No entanto, o desempenho degrada-se acentuadamente com o aumento da dificuldade da tarefa, mesmo para os sistemas mais fortes, destacando direções promissoras para pesquisas futuras.
English
Recent generative models have achieved remarkable progress in image editing. However, existing systems and benchmarks remain largely text-guided. In contrast, human communication is inherently multimodal, where visual instructions such as sketches efficiently convey spatial and structural intent. To address this gap, we introduce VIBE, the Visual Instruction Benchmark for Image Editing with a three-level interaction hierarchy that captures deictic grounding, morphological manipulation, and causal reasoning. Across these levels, we curate high-quality and diverse test cases that reflect progressively increasing complexity in visual instruction following. We further propose a robust LMM-as-a-judge evaluation framework with task-specific metrics to enable scalable and fine-grained assessment. Through a comprehensive evaluation of 17 representative open-source and proprietary image editing models, we find that proprietary models exhibit early-stage visual instruction-following capabilities and consistently outperform open-source models. However, performance degrades markedly with increasing task difficulty even for the strongest systems, highlighting promising directions for future research.
PDF162March 12, 2026